PDFファイルでのネット情報発信で困ることは? という意見の集約・・・

何が困る? PDFファイルでのネット情報発信というtogetterがありました。

いろいろあがっていますが、整理すると次のような意見です。

・ガラケーで見えない。
・数値データを再利用できない。CSVで出してほしい。
・二次利用しにくい。
・アクセシビリティに問題がある。音声読み上げブラウザでうまく読み上げできない。スクリーンリーダー、点字プリンタで出力できない。
・災害時、アクセスが集中して回線が混むとダウンロードに時間がかかる。
・facebook、twitterで画像表示できない。
・iPhoneだと字が小さくて見づらい。
・スキャン画像のPDFは検索に引っかからない。
・開いてみるのに時間がかかる。ぱっと見るならHTMLかテキストが良い。

う~~ん。

PDFは紙をそのままデジタル化したものなので、iPhoneやAndroidスマホのような小さな画面では文字を読みにくいのでなんとかしたいと思っていたのですが、そういう意見はあまりないですね。取りあえずは、読むのが大変でも、見えれば良いのだろうか?

HTMLにして欲しいというのはあるけど読みやすさのためという意見は少ない。

さらに、EPUBが良いという声はないですね。これが現状なんだろう。

PDFからXML形式への変換ライブラリーのアルファ版を公開しました(2015年5月より正式版販売中!)

Antenna House PDFXML変換ライブラリは、PDFファイルを読み込み、内部のテキスト、図、画像などをXML形式に変換するプログラムです。本ライブラリを使用することで、PDFデータの再利用が簡単にできます。詳しくは:PDFの内部のテキスト、表、図をXML形式に変換!(http://www.antenna.co.jp/pdfxml/)

1.AHPDFXML 変換ライブラリの機能

AHPDFXML 変換ライブラリは、PDFに含まれるコンテンツをテキスト、表、画像などの情報単位にまとめて独自のXML表現(「AHPDFXML形式」)に置き換えます。

- AHPDFXMLの出力例 -
図 AHPDFXMLの出力例

AHPDFXML形式には、以下の各種情報が含まれます。

* テキスト情報:PDFに格納されたテキストデータを位置情報とともに出力します。
* ブロック情報:PDFに格納されたテキストデータの配置から、行、段落、段組みの各書式情報を出力します。
* 表情報:PDFページ内に配置された線分データの配置から表組み情報を出力します。
* 画像情報:PDFページ内に埋め込まれた画像データを外部ファイルとして抜きだします。
* 線画情報:PDFページ内に配置された線分データをSVG形式の外部ファイルに変換します。

2. AHPDFXML 変換ライブラリの用途

* PDFをXML形式に変換することによって、PDFデータの扱いが容易になります。
* XSLTスタイルシートを定義して用途に応じた加工が柔軟に行えます。
* PDF内のコンテンツはすべて位置(座標)情報とともに出力されます。これによりページ内の任意の範囲を指定したデータ参照が容易にできます。
* PDF内のブロック情報、表情報、画像情報を参照することにより、DocBookなど文書構造を記述するデータに加工することができます。

3. 対応プラットフォーム

AHPDFXML 変換ライブラリ アルファ版では、以下のWindows環境に対応します。

* Windows Server 2012/2012 R2(64bit)
* Windows Server 2008 R2(64bit)
* Windows Server 2008(32bit/64bit)
* Windows 8.1(32bit/64bit)
* Windows 8(32bit/64bit)
* Windows 7(32bit/64bit)

※Linux版は今後開発予定です。他のOSについてもご要望により対応可能です。

2017年4月28日 AHPDFXML 変換ライブラリV2.0をリリースしました。
2015年5月19日 AHPDFXML 変換ライブラリV1.0をリリースしました。
Microsoft Windows版とLinux版があります。

4. お問い合わせ先

アンテナハウス・OEM営業グループ
Eメール:oem@antenna.co.jp

(2017/5/4追記)このブログを書いてから3年経過しました。その後の2015年5月19日バージョン1、2017年4月28日にバージョン2を発売しています。製品情報について詳しくは次のページをご参照ください。

PDFの内部のテキスト、表、図をXML形式に変換!(http://www.antenna.co.jp/pdfxml/)

Book Interchange Tag Suite (BITS) Version 1.0 の特長についての簡単な紹介

2013年末にBook Interchange Tag Suite V1.0(BITS)が発行された[1]。

以下は、4月初旬のJATS-CONでBITS開発者によるBITSに関する紹介発表[2]のメモである。

1.BITSは、JATS(NISO Z39.96-2012 Journal Article Tag Suite)を拡張したものである。JATSはNISOの標準だが、BITSは、NISOの標準ではない。BIST開発者からJATSへのコメントは多数出して一部はJATSに反映された。

2.想定する用途:
・技術専門書
・政府の報告書
・専門書のシリーズ
・本の章に匹敵するWebコンテンツ
・参考書
・カンファレンスの論文集
・百科事典

組版レイアウトを重視する雑誌、児童書などは除外されている。科学技術系教科書を除外しているわけではないが、実際には、BITS V1ではカバーしていない意味を表すタグや処理要求が多いだろう。

3.特長
(1) BITSの本には二つのトップレベル要素として本(book)と本の一部(book-part-wrapper) がある。book-part-wrapperは本の章などをモジュールとして分離して扱うためのものである。

(2) 本を一つのbookとして扱う場合でも、一部を別の独立したXML文書として作成しておいて、XInclude要素を使って取り込むことができる。

(3) 本の内容(book-body)は、JATS論文のbodyと類似の構造である。原則として、JATSで名前をつけた構造が本の中で使われるときは、BITSでも同じ名前を使う。構造モデルもできるだけ同じにする。

(4) BITSで追加した、本として専用の要素は、tocとindexである。

(5) Question-AnswerのモデルをJATSに提案したが採用されなかったため、BITSでは独自にQuestion-Answerのモデルを本の一部として定義した。

○参考資料
[1] Book Interchange Tag Suite (BITS) version 1.0
[2] What JATS Users should Know about the Book Interchange Tag Suite (BITS)

自社ショップで、1日から先行販売開始した『瞬簡PDF書けまっせ6』。HTMLヘルプとPDFのマニュアルは、CAS-UBでワンソース・マルチユースで制作しています。

アンテナハウスは、4月1日から自社オンラインショップで、4月1日から『瞬簡PDF書けまっせ6』を先行販売開始しました。店頭発売は4月11日からです。

『瞬簡PDF書けまっせ6』のWebページ
アンテナハウスオンラインショップ

『瞬簡PDF書けまっせ6』のマニュアルはHTMLヘルプとPDF版の2種類があります。これはCAS-UBでコンテンツを制作し、ワンソースからHTMLヘルプとPDFを制作しております。

PDF生成機能については、いろいろなところで紹介しております。
また、HTMLヘルプの作り方は簡単です。CAS-UBでコンテンツを制作して、HTMLヘルプを生成でコンテンツを保存します。保存されたファイルをマイクロソフトが提供するHTMLヘルプのコンパイラーにかけるだけです。

CAS-UBでは、電子書籍をPDFとEPUBで作るだけではなく、マニュアルのヘルプなどでもワンソースで制作するのにお使いいただくことができます。

次にいくつかの画面を紹介します。

○HTMLヘルプの呼び出し
helpentry
図1 『瞬簡PDF書けまっせ6』のHTMLヘルプ呼び出しメニュー

○HTMLヘルプ
helpmain
図2 HTMLヘルプのトップ画面

○HTMLヘルプのページの例
helpSample
図3 HTMLヘルプで「図形を貼り付ける」を表示

○PDFの利用ガイド・表紙
PDFtop
図4 PDFのユーザーズマニュアルの表紙

○PDFの利用ガイド・ページの例
PDFsample
図5 PDFの利用ガイドで「図形を貼り付ける」を表示

JATS-CON 2013より NLM-dtdのXMLからEPUBに変換するワークフローのメリットと課題(サマリー)

2013年のJATS-CONは、米国政府機関閉鎖の影響で半年遅れて4月1日と2日開催となりました。発表資料をみていましたら、EPUB関係の話題が二つあります。

Mike Dean, “The Challenges and Benefits of Automating NLM-to-ePub3 File Conversion”, CFA Institute

Gerrit Imsieke, “A Publisher’s InDesign to BITS and EPUB Infrastructure: Conventions, Configuration, Conversion, Checks”, le-tex publishing services GmbH

今年の発表資料はほかにも面白そうな話が満載です。ということで、とりあえず、Mike Dean さんの資料を一読。内容をかいつまんで紹介します。

内容はざっとメモしただけですので、関心をお持ちの方はぜひ全文をお読みください。
—-

CFAは、グローバルな投資家向けの情報提供を行なっている機関で、NLM-dtd形式のXMLによる出版を行なっている。近年はモバイル、対話的な出版を重視している。印刷主体から、提供形式多様化を図っており、HTML5ベースのEPUB3が有力候補である。既に、NLM3.0とMathMLを使っているので、XSLTでEPUB3を作ることができる。これは簡単なワークフローのはずであるが、いろいろ問題がある。

1.EPUBリーダーのフラグメンテーションが大きな問題である。これは同じコンテンツでもリーダーによって見え方が異なるので困るという話で、見出しは日本でも共通である。但し、本文で指摘している問題は、日本で言われる問題とは結構異なっている。できるだけ、印刷の本と同じレイアウトになるように工夫しながらも、次の対応策をとっている。

1.1 全般的対応策
・レイアウトを単純にする。フロートを使わない。
・リストのインデントはカスタマイズしない。
・表の幅や、行分割はリーダー任せとする。
・できるだけ多くのリーダーでチェックする。

1.2 個別問題
○EPUB3の後方互換性
・<figure>タグをうまく処理できないEPUBリーダーがある。
・<section>タグへのリンクを処理できないEPUBリーダーがある。
・epub:switch要素を使えないEPUBリーダーがある。新しい機能と後方互換機能を切り替えできない。
・NCXの@playOrder属性をXSLTで設定できないのでPerlで処理している。
○Kindleについては若干の配慮が必要である。
○eInkデバイスの限界
・画面からはみ出した大きな表をスクロール表示できない(表を一部表示できない場合が出てくる)ものがある。

1.3 表
・キャプションやラベル要素をもつ表は、<figure>で囲み番号か名前で参照する。
・OASIS形式の表を使っているので、HTMLの表に変換する。

1.4 テキストボックス
・<figure>要素で囲むか、<div>で囲むか

2.セマンティックスの扱い
EPUB3ではHTML5を採用し、セマンテックスを表現できるはずだが、EPUB2と比べるとややこしくなることがある。

2.1 セクションとdiv
NML-dtdには構造があるので、HTML5の構造にマップするのは容易であるが、セマンテックスタグは良く考えてマークアップする必要がある。また、NML-dtdからマップできないセマンティックスタグもある。

2.2 ePUB文書構造
NLM-dtdのsecは大よそXHTML5のsectionに、book-partはarticleにマップした。

2.3 Math
MathMLのマークアップは面倒である。一方で、EPUBリーダーでMathMLを表示できるものは少ない。epub:switch要素が機能しないの、フォールバック画像もいれにくい。ということで、Webから配布しているEPUBはMathMLを使わずに、数式を画像とした。

特定の流通ルートを通す教科書は、MathMLを使った。この場合、かなり慎重にチェックしたが、いくつか注意事項がある。

・カンマ区切りとmoオペレータ
・等号の位置揃え
・通貨記号
・上配置のキャレット記号

2.4 一部のセマンティックスタグの使い方に注意
・<blockquote>
・epub:type属性のスコープが狭すぎて教科書のコンテンツでサポートできないものがある。例えば、教科書の各章先頭の「学習成果」、巻頭の「使い方」、「問題と解答」

2.4.1 インラインのフォーマットの使い方
・<em>, <strong>, <b>, <i>

2.5 HTML5のセマンテックスタグの欠点
・オプションコンテンツを表せない
・数式のラベル
・参考文献
・NML-dtdの著者名タグを表現できない

3.課題
・10進数の桁ぞろえができない
・印刷ページ番号
・数式
・表のセマンテックスを表す方法がない
・ワークフローの全自動化

4.XSLによるEPUB3のメリット
XMLでコンテンツを作り、XSLワークフローでEPUB3を作成する方法には大きなメリットがある。
・一貫性
・信頼性
・速度と柔軟性