ホーム


PDF受託開発ページのバナーCAS-UBは、テキストと簡単な記号で出版物のソースを記述し、シングルソースから、ブックオンデマンドに使えるPDF、高品質な電子書籍(EPUB3、Kindle専用EPUB)、レスポンシブなWebサイトなどを作るWEBサービスです。プロフェッショナルな出版物のデジタルファースト制作ができます。

最近の投稿

簡単そうで難しいPDFからのテキスト抽出 解決策を考えます


Adobe Readerなどには、表示しているPDFからテキストをコピー・ペーストする機能があります。内容のコピーが禁止されていないPDFでは、リーダーのコピー・ペースト機能を使ってテキストを取り出して再利用できます。

しかし、このテキスト抽出で取り出したテキストは、文字列の順番が画面に表示される(眼で見た順番)通りにはならないことがあります。

簡単な例を示しましょう。ここに二つのPDFを用意しました。サンプルPDFはダウンロードしていただけます。

PDF1(test.pdf)
PDF2(test2.pdf)

この二つのPDFを表示して横に並べますと、次の図のように画面に表示されるテキストは全く同じです。

この二つのPDFからテキストをコピーしてみます。これは次の操作でできます。
Adobe ReaderでPDFを表示している状態で、「編集」メニュー⇒「すべてを選択」します。選択範囲が次のように表示されます。

次に、「編集」メニュー⇒「コピー」して、メモ帳に貼り付けます。結果を比較してみましょう。

(1)次は左側のPDFから取り出したテキストです。

三連休の最終日10月8日(月・祝日)に開催された
技術書典5。
CAS電子出版は初回から連続して出典しており5回
目の出典です。今回は事情により初めてスポン
サーブースにて出典しました。
事前には大型の台風25号が上陸するかもしれな
いという予報もあり、大変心配しました。蓋を空け
てみますと台風の方は予想よりも速く通り過ぎて、
杞憂でしたが、運営の方々をはじめ心配されたこ
とでしょう。
こうしたイベントは天気次第というのはつらいとこ
ろです。雨にならなくて良かった!

(2)次は右側のPDFから取り出したテキストです。

三連休の最終日10月8日(月・祝日)に開催された
技術書典5。
事前には大型の台風25号が上陸するかもしれな
いという予報もあり、大変心配しました。蓋を空け
てみますと台風の方は予想よりも速く通り過ぎて、
杞憂でしたが、運営の方々をはじめ心配されたこ
とでしょう。
こうしたイベントは天気次第というのはつらいとこ
ろです。雨にならなくて良かった!
CAS電子出版は初回から連続して出典しており5回
目の出典です。今回は事情により初めてスポン
サーブースにて出典しました。

二つのテキストは内容の順序が違っています。このようにPDFでは画面または印刷上では同じ順序で表示される文字列であっても、テキストを抽出した結果が同じになるとは限りません。こうした問題を実際に経験されておられる方も多いでしょう。

このためPDFからテキストを取り出して再利用するのが難しくなります。最悪の場合、もう一度打ち直しになります。

アンテナハウスでは、この問題を解決する方策をいろいろと用意しておりますので、お困りの方は一度ご相談いただければと存じます。
お問い合わせ先

  1. 技術書典5出典記:予想を上回る来場者で完売タイトル続出 コメントをどうぞ
  2. 『PDF CookBook 第3巻』を10月下旬発売します。PDFテキスト検索・抽出、マスク(墨消し)、画像最適化、レイヤなど役立つ情報満載! コメントをどうぞ
  3. 『CSSページ組版入門 第4版』プリントオンデマンド版発売。技術書典5にも出品しますのでどうぞよろしくお願いします。 コメントをどうぞ
  4. CAS-UBで注を作成する方法:脚注、章末注、巻末注 コメントをどうぞ
  5. PDF生成の新機能:行のベースライン合わせ 簡単な解説 コメントをどうぞ
  6. 10月8日(月)「アンテナハウスCAS電子出版」は、『技術書典5』に出典します。 コメントをどうぞ
  7. 電子書籍関連の制作・変換サービスなどのご案内 コメントをどうぞ
  8. CAS記法のマークアップがなぜ必要なのかー図版とキャプションの例 2件のフィードバック
  9. CAS-UB 昨日の定期メンテナンスでプリントオンデマンド(POD)用PDF出力機能を拡張しました コメントをどうぞ