PDFからXML形式への変換ライブラリーのアルファ版を公開しました

Antenna House PDFXML変換ライブラリは、PDFファイルを読み込み、内部のテキスト、図、画像などをXML形式に変換するプログラムです。本ライブラリを使用することで、PDFデータの再利用が簡単にできます。

1.AHPDFXML 変換ライブラリの機能

AHPDFXML 変換ライブラリは、PDFに含まれるコンテンツをテキスト、表、画像などの情報単位にまとめて独自のXML表現(「AHPDFXML形式」)に置き換えます。

- AHPDFXMLの出力例 -
図 AHPDFXMLの出力例

AHPDFXML形式には、以下の各種情報が含まれます。

* テキスト情報:PDFに格納されたテキストデータを位置情報とともに出力します。
* ブロック情報:PDFに格納されたテキストデータの配置から、行、段落、段組みの各書式情報を出力します。
* 表情報:PDFページ内に配置された線分データの配置から表組み情報を出力します。
* 画像情報:PDFページ内に埋め込まれた画像データを外部ファイルとして抜きだします。
* 線画情報:PDFページ内に配置された線分データをSVG形式の外部ファイルに変換します。

2. AHPDFXML 変換ライブラリの用途

* PDFをXML形式に変換することによって、PDFデータの扱いが容易になります。
* XSLTスタイルシートを定義して用途に応じた加工が柔軟に行えます。
* PDF内のコンテンツはすべて位置(座標)情報とともに出力されます。これによりページ内の任意の範囲を指定したデータ参照が容易にできます。
* PDF内のブロック情報、表情報、画像情報を参照することにより、DocBookなど文書構造を記述するデータに加工することができます。

3. 対応プラットフォーム

AHPDFXML 変換ライブラリ アルファ版では、以下のWindows環境に対応します。

* Windows Server 2012/2012 R2(64bit)
* Windows Server 2008 R2(64bit)
* Windows Server 2008(32bit/64bit)
* Windows 8.1(32bit/64bit)
* Windows 8(32bit/64bit)
* Windows 7(32bit/64bit)

※Linux版は今後開発予定です。他のOSについてもご要望により対応可能です。

2015年5月19日 AHPDFXML 変換ライブラリV1.0をリリースしました。
Microsoft Windows版とLinux版があります。

4. お問い合わせ先

アンテナハウス・OEM営業グループ
Eメール:oem@antenna.co.jp

本製品の詳細は次の Web ページをご覧ください。
http://www.antenna.co.jp/pdfxml/

CAS-UB 「PDFインポート」機能を正式機能としました。

CAS-UBは、4月からPDFを取り込んでEPUB編集を行なう「PDFインポート」機能を正式サポートしました。

電子書籍を作りたいが、底本としてPDFしかないとき、CAS-UBの「PDFインポート」機能を利用してPDFからテキストや画像を取り込むことができます。

本PDFインポートでは、テキスト情報が保存されているPDFの内部を解析してテキスト情報を取り出します。OCR技術に依存しているわけではありません。

また、テキスト情報だけではなくて、画像などについても極力解析して取り出すようにしています。

主な変換仕様は次の通りです。

変換仕様

PDFには見出しや箇条書き、テーブル、文字装飾(フォントにある場合を除く)といった情報は存在しません。[1]

よって文字や図形の種類、位置、大きさといった情報の組み合わせから判断して意味のある要素への変換をおこなっています。これにより微妙な位置のずれ、ノイズ、PDF内部の構成、文字情報の欠落などといった様々な要因で、一見簡単に変換できそうな問題なく見えるPDFでも正しく変換できないことがあります。

下記は各要素ごとの変換仕様で、PDFの内容がどのように変換されるかを示しますが、「変換される」とあるものでも、上記の理由から必ず正しく変換できるということを保証するものではありません。

要素 変換仕様
段落 変換されます。
見出し 章として指定されたページの最初の段落を見出しとます。
画像 写真などのラスター画像は変換されますが、線画、図形などのベクトル画像は変換されません。PDFでは複数のラスター画像、ベクトル画像を重ねて一枚の画像のように表示していることがありますが、その場合、一枚ずつに分割されラスター画像のみ変換されることになります。
箇条書き 箇条書きとしては変換されず、通常の段落となります。
テーブル 変換されません。通常のテキストのみとなります。
リンク リンクは無効となり、通常のテキストとして変換されます。リンク情報は削除されます。
ボールド(強調) 変換されます。
イタリック(斜体) 変換されます。
下線 変換されません。通常のテキストのみとなります。
取消線 変換されません。通常のテキストのみとなります。
上付き・下付き文字 変換されません。通常のテキストとなります。
ルビ ルビと判定できた場合にのみ変換されますが、ルビの位置は正しくない場合があります。
PDFフォームデータ 変換されません。情報は削除されます。
PDF注釈 変換されません。情報は削除されます。
スキャナで取り込んだPDF 1ページが1枚の画像として変換されます。

[1] タグ付きPDFではそのような情報があります。しかし、出版物を印刷するためにタグ付きPDFを作っているケースはほとんどないでしょう。
[2] 参考:Wordなどのインポート機能