CAS-UB 「PDFインポート」機能を正式機能としました。

CAS-UBは、4月からPDFを取り込んでEPUB編集を行なう「PDFインポート」機能を正式サポートしました。

電子書籍を作りたいが、底本としてPDFしかないとき、CAS-UBの「PDFインポート」機能を利用してPDFからテキストや画像を取り込むことができます。

本PDFインポートでは、テキスト情報が保存されているPDFの内部を解析してテキスト情報を取り出します。OCR技術に依存しているわけではありません。

また、テキスト情報だけではなくて、画像などについても極力解析して取り出すようにしています。

主な変換仕様は次の通りです。

変換仕様

PDFには見出しや箇条書き、テーブル、文字装飾(フォントにある場合を除く)といった情報は存在しません。[1]

よって文字や図形の種類、位置、大きさといった情報の組み合わせから判断して意味のある要素への変換をおこなっています。これにより微妙な位置のずれ、ノイズ、PDF内部の構成、文字情報の欠落などといった様々な要因で、一見簡単に変換できそうな問題なく見えるPDFでも正しく変換できないことがあります。

下記は各要素ごとの変換仕様で、PDFの内容がどのように変換されるかを示しますが、「変換される」とあるものでも、上記の理由から必ず正しく変換できるということを保証するものではありません。

要素 変換仕様
段落 変換されます。
見出し 章として指定されたページの最初の段落を見出しとます。
画像 写真などのラスター画像は変換されますが、線画、図形などのベクトル画像は変換されません。PDFでは複数のラスター画像、ベクトル画像を重ねて一枚の画像のように表示していることがありますが、その場合、一枚ずつに分割されラスター画像のみ変換されることになります。
箇条書き 箇条書きとしては変換されず、通常の段落となります。
テーブル 変換されません。通常のテキストのみとなります。
リンク リンクは無効となり、通常のテキストとして変換されます。リンク情報は削除されます。
ボールド(強調) 変換されます。
イタリック(斜体) 変換されます。
下線 変換されません。通常のテキストのみとなります。
取消線 変換されません。通常のテキストのみとなります。
上付き・下付き文字 変換されません。通常のテキストとなります。
ルビ ルビと判定できた場合にのみ変換されますが、ルビの位置は正しくない場合があります。
PDFフォームデータ 変換されません。情報は削除されます。
PDF注釈 変換されません。情報は削除されます。
スキャナで取り込んだPDF 1ページが1枚の画像として変換されます。

[1] タグ付きPDFではそのような情報があります。しかし、出版物を印刷するためにタグ付きPDFを作っているケースはほとんどないでしょう。
[2] 参考:Wordなどのインポート機能

メールマガジンのEPUB変換例

お盆休みが終わり、ビジネス再稼動。ということで、昨日、CAS-UB関連のニュース・メルマガを発信いたしました。

今回は、メルマガEPUB変換サービスを開始しましたので、テキスト・メルマガのみではなくて、メルマガのEPUB版も作成しました。現状の、メルマガとEPUBの配信方式の違いは、メルマガがプッシュ配信なのに対して、EPUBはダウンロード方式になることです。将来はプッシュ配信によるEPUBメルマガも普及することと思いますが。

1.元のメルマガはテキスト190行。印刷しますとA4で3枚と少しあります。次のような感じです。テキスト形式の場合は、行間などの設定が適正になりにくいため読みにくくなります。

・1ページ目

・2ページ目

・3ページ目

・4ページ目

◎もとのテキストファイルは次からダウンロードできます。
メルマガテキスト(変換前)

2.このメルマガを、CAS-UBのメルマガ変換を使って簡単な操作でEPUBにすることができます。

◎メルマガ変換結果は次のページからダウンロードできます。
http://www.cas-ub.com/samples/ahnews20120821.epub

例としてiBooksで表示したところの画面スナップショットを示します。
EPUBではCSSで行間の設定を行なうことができますので、テキストよりも読みやすくなります。

また、今後はEPUB形式のメルマガを書店の流通に乗せることもできるようになるだろうと予想します。

CAS-UBの試用ライセンスでもメルマガEPUB変換をお試しいただくことができます。関心をお持ちの方はぜひお試しください。

□■□■□■□■□■□■ご案内□■□■□■□■□■□■

CASオンラインショップでCAS-UBのユーザー登録することで、誰でも30日間だけ無償でご利用いただくことができます。
CAS-UB評価ライセンス

メルマガEPUB変換の4つのテンプレート(サンプル兼解説)とEPUB変換結果

7月24日にCAS-UBに追加予定のメルマガEPUB変換のα版機能について紹介しました。

メルマガEPUB変換機能(アルファ版)の利用方法

続きとして現在用意している4種類のメルマガ種別(メルマガK、メルマガH、メルマガT、メルマガU)テンプレートのサンプルと解説を用意しました。また、実際に変換してEPUBを作成しました。

メルマガEPUB変換では、テキストで書かれたメルマガを、ヘッダー(タイトル)、前書き、目次、記事、フッター(奥付け)に分割して、記事毎に大見出しをつけ、さらに必要に応じて小見出しをつけます。また、目次から大見出しへのリンクを張る事で読みたい記事にジャンプできるようにします。

こうしたコンテンツの自動マークアップ処理を正しく行なうには、オリジナルのテキストを一定の規則に従って書いていただく必要があります。この書き方の雛形がテンプレートのサンプル兼解説となります。

メルマガの書き方は、作者によって異なり、数限りないパターンがあります。そこで、CAS-UBのメルマガEPUB変換ではまず代表的なメルマガを4種類選んで雛形を作成してみました。

これ以外の雛形については、作者の要望に応じて追加していく予定です。実際に変換してみたいメルマガをお持ちの方は、営業担当窓口(cas-info@antenna.co.jp)までご相談ください。

■メルマガ種別のテンプレート・サンプル兼解説

メルマガ種別 テンプレート EPUB見本 備考
メルマガK テンプレート EPUB見本 小寺信良の「金曜ランチボックス」(「夜間飛行」より配信)を参考に雛形化
メルマガH テンプレート EPUB見本 『堀江貴文のブログでは言えない話』を参考に雛形化
メルマガT テンプレート EPUB見本 津田大介の「メディアの現場」を参考に雛形化
メルマガU テンプレート EPUB見本 内田樹メールマガジン 大人の条件(「夜間飛行」より配信)を参考に雛形化

■ご案内

CASオンラインショップでCAS-UBのユーザー登録することで、誰でも30日間だけ無償でご利用いただくことができます。
CAS-UB評価ライセンス