PDF文書の永続性、Web文書の揮発性

PDF文書とWeb文書にはいくつかの点で本質的な違いがあります。一番大きな違いは前者の永続性に対して、後者の揮発性ではないかと思います。

PDF文書の永続性とは
PDF文書のモデルは、紙にインクで印刷したのと同じ状態を再現することです。紙に書かれた情報は1つの物体としての形を備えています。そして、それは、消去されるまで永続的に、人間の目に見える状態は同じものとして保存されます。

Web文書の揮発性とは
それに対してWeb文書は、分散した情報を瞬時に探して端末に表示するモデルです。情報が分散配置されていることに特徴があります。リンクによって探し出される毎に、端末を経由して人間の目に触れるわけですが、その都度、人間の目に見える状態が変わります。Web文書は、次に可視化されるとき、今表示されている状態と同じである保証がありません。

現在、出版などでは紙からデジタル媒体への転換が進んでいます。しかし、デジタル媒体としてみたときには、PDF文書とWeb文書には上のような本質的な相違があります。こうしてデジタル媒体としては、WebとPDFが今後かなり長い間両立するだろうと予想します。

2018/06/21
PDF資料室に論点を整理した次の記事を掲載しました:
「PDFとWebにはどんな違いがありますか? インターネットやWebがますます普及するとしてPDFは使い続けられますか?」

41項目のPDF料理を紹介する『PDF CookBook』4月発行! 技術書典4 でも販売します

CAS電子出版より『PDF CookBook』を4月発売します。

2018年08月24日 第1巻全文(Web版)をウエブサイトにて公開しました:『PDF CookBook 第2巻』(HTML)

PDFは、紙に印刷する情報を表現する電子ファイルで、デジタル時代の紙にあたります。現在、企業で使う文書を中心に紙からPDFへの転換が進んでおり、これからはPDFを紙のように手軽に簡単に編集・加工したいというニーズがますます大きくなるでしょう。『PDF CookBook』はPDFを編集・加工する方法を紹介する、いわば、PDFをメイン素材とする料理本です。

現在、さまざまなアプリケーションから大量にPDFが生み出されて流通しています。例えば、Microsoft Office には10年ほど前からPDF形式保存機能があり、また、Windows10 にはPDF出力ドライバーが標準で付くようになりました。本書の著者であるアンテナハウスからもマニュアルの原稿などを高度なレイアウトで自動組版してPDFにするソフト[1]や、廉価なPDF作成ソフト[2]も提供しています。また、主要なブラウザはPDFを表示する機能を内蔵しています。このように、この10年でPDFを作成・表示する環境は著しく進化・充実しています。PDFはWebと並んで身近になっているといえます。

本書では企業向けシステムの企画・営業担当者から開発者まで幅広い層を想定読者としています。初心者にもPDFの活用法をご理解いただけるよう、最初に図版でPDF料理のイメージを表すようにしました。PDFを調理する包丁としては、アンテナハウスのPDF編集・加工ライブラリ「PDF Tool API V5」[3]を前提としています。それぞれの課題に対して、実際にPDFをさまざまに調理するJavaプログラムのサンプルを紹介しています。また、プログラムを実際に使ってPDFを加工する実例も示しました。本書で紹介しているプログラムは、別途、Webページから配布しています。

なお、本書ではISO 32000-1:2008で作成できるPDFの機能のうち、「PDF Tool API V5」で使用できる範囲に限って説明しています。PDFの仕様で定められている機能のすべてを網羅している訳ではありません。あらかじめご了承ください。

目次
はじめに
第1章 PDF 文書のページ
1.1 ページ編集
1.1.1 総ページ数の取得
1.1.2 PDF 文書の結合
1.1.3 ページの抽出
1.1.4 ページの削除
1.1.5 PDF 文書の分割
1.1.6 白紙ページの挿入
1.1.7 ページの移動
1.2 ページサイズ、方向および余白
1.2.1 ページ境界値の取得
1.2.2 ページ境界値の設定
1.2.3 ページ周囲の余白を断裁
1.2.4 ページ周囲に余白を追加
1.2.5 ページを上下左右に分割
1.2.6 ページの拡大・縮小
1.2.7 用紙の向きを揃える
第2章 PDF 文書の本文描画
2.1 テキスト描画
2.1.1 本文テキストの追加
2.1.2 フォントの設定
2.1.3 文字の色指定
2.1.4 文字の輪郭線の色
2.1.5 描画テキストの不透明度
2.1.6 文字列の回転出力
2.1.7 縦書き文字列描画
2.1.8 帳票へ文字記入
2.2 画像描画
2.2.1 ページ上に画像を描画
2.2.2 画像の拡大・縮小描画
2.2.3 解像度(dpi)の設定
2.2.4 印鑑画像を捺印
2.2.5 QR コードを配置
2.2.6 透明度の設定
2.2.7 マスク処理:ステンシルマスク
2.2.8 マスク処理:カラーキーマスク
2.2.9 マスク処理:明示マスク
2.2.10 マスク処理:ソフトマスク
2.3 PDF ページを描画
2.3.1 PDF のページを貼り付け
2.3.2 ページ割り付け
2.3.3 PDF 文書として用意した印鑑を捺印
2.3.4 QR コード(PDF)を配置
2.4 図形描画
2.4.1 パスで直線の描画
2.4.2 パスで矩形の描画
2.4.3 パスで角丸矩形の描画
2.4.4 パスで楕円/円の描画
2.4.5 本文描画の重なり
索引

各項でPDFの料理法を取り挙げて、そのプログラム例、使用例を示しています。例えば、1.2.3 ページ周囲の余白を断裁の項は次のようになっています。


紙版:Web書店
出版社: アンテナハウスCAS電子出版
発売日:2018年4月
著者:アンテナハウス株式会社
販売形式:プリントオンデマンド版
サイズ:B5判 横組み
ページ数:124ページ
価格(税込):1,728円
ISBN:978-4-900552-60-9
販売店:アマゾン(POD版)(4月6日発売)、その他Web書店で発売予定

※紙版(弊社にて直販)
アンテナハウスにご来社いただいた方に超格安で販売しております:ご案内ページ

デジタル版
販売形式:PDF版(DRMなし)
ページ数:122ページ
価格(税込み):864円
販売店:アンテナハウス・オンラインショップ(PDFのダウンロード)

次は終了
本書は、4月22日開催の技術書典4でも販売いたします。
技術書典4サークル情報☞アンテナハウスCAS電子出版

[1]マニュアルの原稿などを高度なレイアウトで自動組版してPDFにするソフト
[2]廉価なPDF作成ソフト
[3]PDF Tool API V5

『PDF CookBook第2巻』は6月中旬発売です。

技術書典2と『PDFインフラストラクチャ解説』第1.1版、『XSL-FOの基礎 第二版』のご紹介

4月9日にアキバ・スクエアにて技術書典2が開催されます。詳しい情報はこちら:技術書オンリーイベント。僕らが作る。 技術書オンリーイベント 第2回、開催決定!

サークル詳細 | アンテナハウスCAS電子出版(き-07)

CAS電子出版は今年も技術書典に参加します。実は、この1年間、技術書関係の新しい出版物を出していないためちょっと迷いました。しかし、とにかく継続が大事ということで恥ずかしながら昨年と同じタイトルで参戦します。振り返りますと無駄に1歳加えてしまったこの1年でした。

でもそうはいっても全く同じではということで、『PDFインフラストラクチャ解説』を第1.1版に、『XSL-FOの基礎』を第二版に改訂しました。

『PDFインフラストラクチャ解説』1.1版はすでに販売しておりますので、詳しくは次のページをご覧ください。
「PDFインフラストラクチャ解説 電子の紙PDFとその周辺技術を語り尽す第1.1版」

この1年の変化を振り返りますとPDF 2.0=ISO 32000-2がそろそろ出版されることが大きいかなということで、付録にPDF 2.0の概要を追加しています。但し、ISO 32000-2仕様書はまだドラフトのため、本文には加えず付録としました。初版をお求めいただいた方のために付録部分はWebでも公開しています。
PDFインフラストラクチャ解説 付録:もうすぐ出版されるPDF 2.0の概要

『XSL-FOの基礎』第二版はかなり大幅に改訂しています。初版は、昨年6月に開催された初回の技術書典に間に合わせるため突貫で出版したこともあり、説明の内容や特に図版の出来が不十分でした。今回は、昨年の技術書典の後に改訂作業をした分と、さらに第二回に間に合わせるように修正した分を合わせますとかなり大幅な書き直しとなっています。前よりもだいぶ良くなったと思いますが。

こちらは、まだPODで発売になっておりませんので、発売次第ご案内いたします。

参考資料
1.6月25日技術書典 大盛況でした。XMLの本にも大きな関心を寄せていただきました。
2.技術書典 再来週末(6月25日)開催! 出展に向けて準備中!
3.技術書典出展のお知らせ

平日に買い、休日に読む? 

アマゾンの電子書店:キンドル・ダイレクト・パブリッシング(KDP)には、KDPセレクトという設定ができます。

KDPセレクトに設定すると、1冊販売する毎のロイヤリティが高くなります。それだけではなく、さらにプライム会員向けのKindle オーナー ライブラリー(KOL)に登録されます。KOLは、月に1冊本に限り自由に読むことができる本の一つになります。

KDP出版社向けのレポートには、販売部数と読んだページ数が表示されます。

1月16日に発売した『PDFインフラストラクチャ解説』ですが、発売にあたり、KDPセレクトに設定しました。

アマゾンでKDP実績レポートを見ますと、次のようになっています。

2016-01-26

先週中に、13冊販売しました。それとは別に、KOLで190頁強読んでいただきました。

面白いのは、KOLの読書が1月24日日曜日に一番多くなっています。購入いただいた方と、お読みいただいた方は同一人ではないのでしょうが集団としては、平日に購入し、休日に読む、と言えそうです。

AH Formatter事例紹介セミナー 10月16日(金) に開催します。講演数を増やして充実しました。

2015年度のAH Formatter事例紹介セミナーを今週、金曜日、午後13:20~18:00に開催致します。

いま、XML分野では、DITAが主要な応用領域となっています。
今回は、DITAの事例を日立金属株式会社様PFUテクニカルコミュニケーションズ株式会社様よりご講演いただきます。
その他、慶應義塾大学様より「電子書籍と博士論文インターネット公開義務化でのPDF活用例と問題」のご講演など、盛沢山の事例紹介となっており、ご参考にしていただけるかと存じます。

明後日開催で日時が迫っておりますが、お時間の余裕がございましたら、ぜひご参加ください。
今からでもご予定に入れていただきますようご案内申し上げます。

題名:アンテナハウス 事例紹介セミナー Autumn!
日時:2015年10月16日(金) 13:20〜18:00
場所:関東ITソフトウェア健保会館会議室(新宿区・大久保)
詳細のタイムテーブルとお申込み:こくちーず

EPUBをアマゾンPOD用PDFに変換するツール、EPUB vs PDFの相違点など

アンテナハウスはEPUBをアマゾンPOD用のPDFに変換するツールを開発しました。

■製品Webページ:『EPUB校正用、プリントオンデマンド用PDF出力 EPUB to PDF 変換ツール』

このツールはEPUBを入力とし、EPUBのコンテンツ(XHTML)を自動組版してPDFを出力します。

PDFのレイアウトは、EPUBに指定されているレイアウト指定(CSS)情報を生かして行います。しかし、EPUBに指定されているCSSだけでは印刷物を作るには情報が足りません。そこで足りない項目は外部からパラメータを指定して、CSSの指定に追加したり上書きしたりできます。詳しくは、後述のツールの概要を参照のこと。

EPUBをお持ちの場合、ツールをお求めいただければドウイットユアセルフ(DIT)でEPUBをPDFに変換できます。また、テスト変換もございます。最初からDITは無理かな? という向きには弊社でEPUBをPDF化するサービスも承ります。EPUBをお持ちで、アマゾンプリントオンデマンド(POD)で販売することを検討中の出版社の方は、cas-info@antenna.co.jp までお気軽にご連絡ください。

1.本ツールの概要

1.1 動作環境
ツールにはグラフィカル・ユーザーインターフェイスは付いていません。コマンドラインで操作します。Windows、Linux、MacOS/Xなどでお使いいただくことができます。

コマンドラインでは、変換元のEPUB、パラメータ、出力先PDF(名)などを指定します。

1.2 扱えるEPUB
リフロー型、固定レイアウト型EPUBを両方とも扱えます。

但し、変換元のEPUBを本ツールで解凍して中のコンテンツを自動的にPDFに変換しますので、DRMが付いているEPUBは扱えません

その他詳細はお問い合わせください。

1.3パラメータの説明
PDFを作るのに必要で、EPUBには無いレイアウト指定情報などをパラメータで追加します。
(1)PDFのバージョン(PDF/Xなども可)
(2)判型(必要に応じて塗足しの有無と塗足しの寸法)
(3)マージン(小口、のど、天、地)
(4)デフォルト・フォントサイズ 
(5)デフォルト・フォントファミリー
(6)デフォルト行の高さ
(7)柱のテキスト、柱の位置
(8)ノンブルを付けるかどうか、ノンブルの位置
(9)その他項目を、多数、設定ができます

1.4 目次の扱い
EPUBにはEPUBリーダー用の目次(論理目次)と、本文と同じ扱いの目次(本文目次)があるのが一般です。本ツールは本文目次をPDFの目次にします。

1.4.1 目次頁(XHTML)の識別
EPUBの中の本文目次頁を(できるだけ)識別します。次のように指定もできます。
(1)目次ファイル名を指定
(2)目次頁の先頭テキストを指定(デフォルト:目次)
※指定がないときはデフォルトを使います。

1.4.2 目次項目の識別とページ番号の付加
EPUBの目次項目には、本文の該当章などへのリンクが設定されているのみです。本ツールでは目次頁の目次項目を識別して、その項目にページ番号を付加します。

目次項目にクラス名が付いているとき、そのクラス名を指定して該当項目を目次項目にします。

1.5 表紙
表紙画像をもとにアマゾンPOD入稿仕様に準拠した表紙のPDFを作ります。
背表紙の画像または文字列を指定したとき、(本文の100頁超のとき)背表紙に入るように自動調整します。

2. EPUBとPDFの相違点
EPUBとPDFでは本質的な相違があります。次に主な相違点を述べます。

2.1 寸法
EPUBでは相対寸法が基本ですが、PDFでは絶対寸法になります。例えば、EPUB(リフロー)では本文のデフォルト・フォントサイズは一般には指定しないで、読者がEPUBリーダーで変更できます。それに対してPDFではデフォルト・フォントサイズを、xxpt(単位はいろいろ)のような寸法で指定します。

2.2 フォント・ファミリー
EPUBでは、普通、本文全体のフォントファミリー名はserif、sans-serifなどのジェネリック名を指定します。しかし、PDFでは本文全体に適用するデフォルト・フォントとして具体的なファミリー名を指定します。

2.3 画像
画像の大きさは、アマゾンPODでは300dpi以上でなければなりません(それ以下だとエラーにされます)。本ツールでは、画像を300dpiに強制する機能がありますので、これを使えばとアマゾンの必要条件はクリアできます。

3.注意点
現在のEPUBは、EPUBリーダー(Kindleを含む)を想定して作られており、そのまま印刷物にするにはレイアウト情報が不足しています。本ツールでは不足しているレイアウト情報をパラメータで補います。ただし、必ずしも十分なコントロールはできません。例えば改頁、改丁処理などは自由に指定できません。また、書籍では章の見出しを柱の内容にすることが多いのですが、章を自動的に識別して柱にするにはどの見出しが章であるかを識別しなければなりません。それは、現在、未対応です。

関連記事1:EPUBをプリントオンデマンド用のPDFに変換するツール「EPUBtoPDF」のご紹介(スライド)
関連記事2:EPUBtoPDF変換ツール+CAS-UB V2.3のちらしができました
関連記事3:EPUB校正用、プリントオンデマンド用PDF出力 EPUB to PDF 変換ツール
関連記事4:流通によるプリントオンデマンドでの出版が現実のものとなった今、その活用の課題を考える。(2017年1月時点)
関連記事5:アンテナハウス 電子出版サービス

PDFファイルでのネット情報発信で困ることは? という意見の集約・・・

何が困る? PDFファイルでのネット情報発信というtogetterがありました。

いろいろあがっていますが、整理すると次のような意見です。

・ガラケーで見えない。
・数値データを再利用できない。CSVで出してほしい。
・二次利用しにくい。
・アクセシビリティに問題がある。音声読み上げブラウザでうまく読み上げできない。スクリーンリーダー、点字プリンタで出力できない。
・災害時、アクセスが集中して回線が混むとダウンロードに時間がかかる。
・facebook、twitterで画像表示できない。
・iPhoneだと字が小さくて見づらい。
・スキャン画像のPDFは検索に引っかからない。
・開いてみるのに時間がかかる。ぱっと見るならHTMLかテキストが良い。

う~~ん。

PDFは紙をそのままデジタル化したものなので、iPhoneやAndroidスマホのような小さな画面では文字を読みにくいのでなんとかしたいと思っていたのですが、そういう意見はあまりないですね。取りあえずは、読むのが大変でも、見えれば良いのだろうか?

HTMLにして欲しいというのはあるけど読みやすさのためという意見は少ない。

さらに、EPUBが良いという声はないですね。これが現状なんだろう。

『PDFインフラストラクチャ解説』第2回目の試作BODできました。電子出版EXPOにてご覧いただくことができます。

7月1日『PDFインフラストラクチャ解説』の第2回目のBOD(ブックオンデマンド)試作版ができあがりました。CAS-UBで原稿を執筆して制作したものです。7月3日から開催の「電子出版EXPO」会場にてお手にとってご覧いただきたいと存じます。

20130701c

20130701b

第1回目は2月でしたので、第2回目までに4ヶ月経過しました。この間の変更点は次の通りです。

1.組版の変更

○初回試作のBOD版について組版の専門家に評価していただきました。評価いただいた結果によりCAS-UBのPDF生成レイアウトについて主に次のような点を改めました。
(1) 基本版面にY15a (B5判39文字、33行、10ポイント)を追加して、第2回目はこちらで組版しました。第1回目はY15(B5判38文字、30行、10ポイント)でしたが、ゆったりしているという印象が強かったようですのでもう少し詰めてみました。
(2) 見出しの配置を変更。第1回目で行頭寄せの方が無難という意見が多くありましたので、見出しを中央から行頭寄せに変更しました。但し、行頭1文字を空けています。(行頭を左詰めという意見が多かったのですが、実際の書籍を見ますと、1文字空けているものも多く見られます。)
(3) 章・節番号の形式を変更、章・節番号と見出しテキストの間の空き、図とキャプションの間の空きなどの空きを調整しました。
(4) 図のキャプションを下に、表のキャプションを上に設定しました。
(5) 表セル内の文字のサイズを本文の0.9倍(0.9em)、行送りを1.5emに変更しました。
(6) 注をすべて脚注に変更しました。

なお、PDFレイアウト詳細設定に機能がなかったものは機能を追加しています。PDFレイアウト詳細設定には非常に多数の設定項目がありますが、組版の専門家の意見を元にして既定値の組み合わせを決定して、それを推奨パターン(推奨テーマ)として用意し、ユーザーは推奨テーマを使うことで専門知識なしに専門家の作った組版と同じ結果を得られるようにしたいと考えています。

2.表紙の変更

表紙に無料素材画像を使っていたのですが解像度不足のため、新たにデザインしました。

3.内容の変更

内容も第1回目は0.24版(2/22)から今回は0.33版(6/20)にバージョンアップしています。主な変更は次の通りです。

(1) 9.2節 PDFにおける構造の項を追加
(2) 9.3節タグ付きPDFを追加
(3) 14.1節 Web最適化の記述を追記・編集
(4) 14.2節 アクセシビリティを追記
(5) 21.1 ~21.4節 PDF電子署名、タイムスタンプを追加。
(6) 22.6節 PDF/Aの作り方の解説を追加
(7) 22.7節 PDF長期署名(PAdES)の節を追加。
(8) その他細かい変更

内容はだいぶ増えましたが、基本版面の変更で総ページ数は前回とほぼ同じになっています。

4.参考文献の形式を変更

参考文献の形式をいろいろと調査した結果、MLA方式[2]に準じた形式を採用することにして、参考文献の形式を全面変更しました。参照元の参照形式も書き直しています。MLA方式を採用したのは、参考文献の書き方を具体的に詳しく説明していること、ウェブを参考文献に記載する方法が充実していることなどが主な理由です。

参考文献の記載方法はおおむね次の順序です。
①著者名またはそれに準じる団体名、②記事名、③書名、④発行所、⑤発行年月、⑥媒体、⑦ウェブのときURL、⑧URLへのアクセス日

発行年月が発行所の後ろに付くこと、媒体表記が特長です。

できあがったページは次のようになります。

20130701d

もともとブログの記事でしたので、文章中に外部リンクを多数埋め込んでいましたが、これらをすべて参考文献に移して、参考文献から外部リンクをするようにしました。

CAS-UBは、電子書籍(EPUB、Kindle)を制作するのにご利用いただくことが多いのですが、今後の出版において紙の優位性はまだかなり長い間続くものと予想されます。そこで、紙と電子の両方の形式を簡単に制作することができるようにすることを開発目標のひとつとしています。BOD版の試作はその実現に向けての取り組みの一つとなります。

5.EPUB版、PDF版はWebから配布しています。
『PDFインフラストラクチャ解説』(EPUB版、PDF版)は無料でダウンロードしていただくことができます。→CAS電子出版の紹介

2016年1月にPOD版とKDP版を発売しました。これに伴い、無料配布は終了いたしました。

[1] 『PDFインフラストラクチャ解説』をプリントオンデマンドで本にしてみました
[2] 「MLA Handbook for Writers of Reseach Papers, Seventh Edition」(Modern Language Association, 2009)

『PDFインフラストラクチャ解説』を0.31版に改訂。「PDFの真性性・証拠性の確保」の章を記述しました。

『PDFインフラストラクチャ解説』を0.31版に改訂しました。

第20章 PDFの真性性・証拠性の確保
20.1 電子署名の仕組み
20.2 タイムスタンプの仕組み
20.3 PDF電子署名(ISO 32000-1)
20.4 PDFタイムスタンプ

の各節の内容を記述しました。

PDF版、EPUB3版を、こちらから無償配布しています:CAS-UB出版物紹介の「PDFインフラストラクチャー解説(仮)」 

【追記:2016/1/21】
2016年1月に本書発売となり、無償配布を終了させていただきました。(『PDFインフラストラクチャ解説』POD版とKDP版が揃い踏みとなりました
【追記:ここまで】

電子署名関係、特に電子証明書は難しいので用語の整理が必要だと思いました。

PDF生成における図の大きさを調整しました。但し、まだ図とか表のレイアウトは調整途中です。もう少しレイアウトを調整して
7月3日~5日に開催される国際電子出版EXPOまでに、第2回目のブックオンデマンド版を試作したいと考えています。

『PDFインフラストラクチャ解説』更新、0.28版にしました。

『PDFインフラストラクチャ解説』の内容を更新して0.28版としました。

前回の0.24版から次の箇所を更新しています。

1)第8章のタイトルを「PDFとデータ交換」に変更し、「8-2 PDFにおける情報表現」、「8-3 タグ付きPDF」の節を追加しました。

2)第3章の「13-3 PDFのアクセシビリティ」の内容を記述しました。

PDF版、EPUB3版を次のページから無料で配布しています。記述の内容が正しいかどうか、また、もっと突っ込んでほしいところがありましたらご意見をいただけると嬉しいです。

CAS電子出版の紹介2016年1月本書を正式発売しましたので、無償配布を終了いたしました。詳細は、下の【広告】をご参照ください。

0.24版にしてから1ヶ月弱の時間が経過しましたが、残念ながら進捗振りが思い通りになっていません。

現在、PDFInterstグループのメンバーを中心に、内容を追加したり、内容をみていただいたり、組版レイアウトの評価をしていただいていますが、まだいただいた意見は反映するにいたっておりません。

次の更新ではもう少しピッチをあげたいと考えています。