PDFからXML形式への変換ライブラリーのアルファ版を公開しました(2015年5月より正式版販売中!)

Antenna House PDFXML変換ライブラリは、PDFファイルを読み込み、内部のテキスト、図、画像などをXML形式に変換するプログラムです。本ライブラリを使用することで、PDFデータの再利用が簡単にできます。詳しくは:PDFの内部のテキスト、表、図をXML形式に変換!(http://www.antenna.co.jp/pdfxml/)

1.AHPDFXML 変換ライブラリの機能

AHPDFXML 変換ライブラリは、PDFに含まれるコンテンツをテキスト、表、画像などの情報単位にまとめて独自のXML表現(「AHPDFXML形式」)に置き換えます。

- AHPDFXMLの出力例 -
図 AHPDFXMLの出力例

AHPDFXML形式には、以下の各種情報が含まれます。

* テキスト情報:PDFに格納されたテキストデータを位置情報とともに出力します。
* ブロック情報:PDFに格納されたテキストデータの配置から、行、段落、段組みの各書式情報を出力します。
* 表情報:PDFページ内に配置された線分データの配置から表組み情報を出力します。
* 画像情報:PDFページ内に埋め込まれた画像データを外部ファイルとして抜きだします。
* 線画情報:PDFページ内に配置された線分データをSVG形式の外部ファイルに変換します。

2. AHPDFXML 変換ライブラリの用途

* PDFをXML形式に変換することによって、PDFデータの扱いが容易になります。
* XSLTスタイルシートを定義して用途に応じた加工が柔軟に行えます。
* PDF内のコンテンツはすべて位置(座標)情報とともに出力されます。これによりページ内の任意の範囲を指定したデータ参照が容易にできます。
* PDF内のブロック情報、表情報、画像情報を参照することにより、DocBookなど文書構造を記述するデータに加工することができます。

3. 対応プラットフォーム

AHPDFXML 変換ライブラリ アルファ版では、以下のWindows環境に対応します。

* Windows Server 2012/2012 R2(64bit)
* Windows Server 2008 R2(64bit)
* Windows Server 2008(32bit/64bit)
* Windows 8.1(32bit/64bit)
* Windows 8(32bit/64bit)
* Windows 7(32bit/64bit)

※Linux版は今後開発予定です。他のOSについてもご要望により対応可能です。

2017年4月28日 AHPDFXML 変換ライブラリV2.0をリリースしました。
2015年5月19日 AHPDFXML 変換ライブラリV1.0をリリースしました。
Microsoft Windows版とLinux版があります。

4. お問い合わせ先

アンテナハウス・OEM営業グループ
Eメール:oem@antenna.co.jp

(2017/5/4追記)このブログを書いてから3年経過しました。その後の2015年5月19日バージョン1、2017年4月28日にバージョン2を発売しています。製品情報について詳しくは次のページをご参照ください。

PDFの内部のテキスト、表、図をXML形式に変換!(http://www.antenna.co.jp/pdfxml/)