CAS-UB 「PDFインポート」機能を正式機能としました。

CAS-UBは、4月からPDFを取り込んでEPUB編集を行なう「PDFインポート」機能を正式サポートしました。

電子書籍を作りたいが、底本としてPDFしかないとき、CAS-UBの「PDFインポート」機能を利用してPDFからテキストや画像を取り込むことができます。

本PDFインポートでは、テキスト情報が保存されているPDFの内部を解析してテキスト情報を取り出します。OCR技術に依存しているわけではありません。

また、テキスト情報だけではなくて、画像などについても極力解析して取り出すようにしています。

主な変換仕様は次の通りです。

変換仕様

PDFには見出しや箇条書き、テーブル、文字装飾(フォントにある場合を除く)といった情報は存在しません。[1]

よって文字や図形の種類、位置、大きさといった情報の組み合わせから判断して意味のある要素への変換をおこなっています。これにより微妙な位置のずれ、ノイズ、PDF内部の構成、文字情報の欠落などといった様々な要因で、一見簡単に変換できそうな問題なく見えるPDFでも正しく変換できないことがあります。

下記は各要素ごとの変換仕様で、PDFの内容がどのように変換されるかを示しますが、「変換される」とあるものでも、上記の理由から必ず正しく変換できるということを保証するものではありません。

要素 変換仕様
段落 変換されます。
見出し 章として指定されたページの最初の段落を見出しとます。
画像 写真などのラスター画像は変換されますが、線画、図形などのベクトル画像は変換されません。PDFでは複数のラスター画像、ベクトル画像を重ねて一枚の画像のように表示していることがありますが、その場合、一枚ずつに分割されラスター画像のみ変換されることになります。
箇条書き 箇条書きとしては変換されず、通常の段落となります。
テーブル 変換されません。通常のテキストのみとなります。
リンク リンクは無効となり、通常のテキストとして変換されます。リンク情報は削除されます。
ボールド(強調) 変換されます。
イタリック(斜体) 変換されます。
下線 変換されません。通常のテキストのみとなります。
取消線 変換されません。通常のテキストのみとなります。
上付き・下付き文字 変換されません。通常のテキストとなります。
ルビ ルビと判定できた場合にのみ変換されますが、ルビの位置は正しくない場合があります。
PDFフォームデータ 変換されません。情報は削除されます。
PDF注釈 変換されません。情報は削除されます。
スキャナで取り込んだPDF 1ページが1枚の画像として変換されます。

[1] タグ付きPDFではそのような情報があります。しかし、出版物を印刷するためにタグ付きPDFを作っているケースはほとんどないでしょう。
[2] 参考:Wordなどのインポート機能

CAS-UBのワードインポート機能を改善しました。またPDFインポートを仮公開しました。

昨日(2/14)の定期メンテナンスで、CAS-UBのインポート機能を改善しました。

1.Word 2003 XML形式のインポートを改善

今回改善したのは、Word 2003 XML形式(通称:WordML)からのインポート機能です。

○機能を追加した項目

・縦組みでワード文書に縦中横が設定されていたとき、CAS-UBでも縦中横のマークアップに変換します
・ワード文書の見出し(アウトラインレベルが設定されている)のルビ・縦中横をCAS-UBの見出しマークアップに変換します
・ワードでは、[Shift] + [Enter] で、段落途中入力した強制改行をCAS-UBの強制改行(\\)に変換します

Word2003以前のdoc形式、Word2007以降のdocx形式からのインポートは従来どおりで変更ありません。このため現在ワード文書のインポートでは、Word 2003 XML形式がもっとも良い変換結果になります。(doc/docx形式は、今後、改善予定)

DOC/DOCXファイルを Word 2003 XML形式にするには、マイクロソフトWordを使ってDOC/DOCXファイルを開き、名前を付けて保存を実行して「ファイルの種類」に Word 2003 XMLドキュメント(*.xml)を指定して保存ください。

2.PDFからのインポートを仮公開

PDFファイルからのインポート機能を仮公開しました。

PDFをEPUBに変換する方式には、(1)PDFの各ページを画像にする、(2)PDFをリフロー型のEPUBに変換するという二通りの方式が考えられます。

今回追加したCAS-UBのPDFインポート機能は(2)のPDFリフロー型のEPUBに変換する方式です。
PDFの中のテキストを取り出してCAS-UBの記事に変換します。

変換対象とするPDFは、文字コードを取り出すことのできるPDFです。スキャンして作成したPDFは対象外となります。

○CAS-UBのインポート機能の概要
Wordなどのインポート