CAS-UB 「PDFインポート」機能を正式機能としました。

CAS-UBは、4月からPDFを取り込んでEPUB編集を行なう「PDFインポート」機能を正式サポートしました。

電子書籍を作りたいが、底本としてPDFしかないとき、CAS-UBの「PDFインポート」機能を利用してPDFからテキストや画像を取り込むことができます。

本PDFインポートでは、テキスト情報が保存されているPDFの内部を解析してテキスト情報を取り出します。OCR技術に依存しているわけではありません。

また、テキスト情報だけではなくて、画像などについても極力解析して取り出すようにしています。

主な変換仕様は次の通りです。

変換仕様

PDFには見出しや箇条書き、テーブル、文字装飾(フォントにある場合を除く)といった情報は存在しません。[1]

よって文字や図形の種類、位置、大きさといった情報の組み合わせから判断して意味のある要素への変換をおこなっています。これにより微妙な位置のずれ、ノイズ、PDF内部の構成、文字情報の欠落などといった様々な要因で、一見簡単に変換できそうな問題なく見えるPDFでも正しく変換できないことがあります。

下記は各要素ごとの変換仕様で、PDFの内容がどのように変換されるかを示しますが、「変換される」とあるものでも、上記の理由から必ず正しく変換できるということを保証するものではありません。

要素 変換仕様
段落 変換されます。
見出し 章として指定されたページの最初の段落を見出しとます。
画像 写真などのラスター画像は変換されますが、線画、図形などのベクトル画像は変換されません。PDFでは複数のラスター画像、ベクトル画像を重ねて一枚の画像のように表示していることがありますが、その場合、一枚ずつに分割されラスター画像のみ変換されることになります。
箇条書き 箇条書きとしては変換されず、通常の段落となります。
テーブル 変換されません。通常のテキストのみとなります。
リンク リンクは無効となり、通常のテキストとして変換されます。リンク情報は削除されます。
ボールド(強調) 変換されます。
イタリック(斜体) 変換されます。
下線 変換されません。通常のテキストのみとなります。
取消線 変換されません。通常のテキストのみとなります。
上付き・下付き文字 変換されません。通常のテキストとなります。
ルビ ルビと判定できた場合にのみ変換されますが、ルビの位置は正しくない場合があります。
PDFフォームデータ 変換されません。情報は削除されます。
PDF注釈 変換されません。情報は削除されます。
スキャナで取り込んだPDF 1ページが1枚の画像として変換されます。

[1] タグ付きPDFではそのような情報があります。しかし、出版物を印刷するためにタグ付きPDFを作っているケースはほとんどないでしょう。
[2] 参考:Wordなどのインポート機能