簡単そうで難しいPDFからのテキスト抽出 解決策を考えます

Adobe Readerなどには、表示しているPDFからテキストをコピー・ペーストする機能があります。内容のコピーが禁止されていないPDFでは、リーダーのコピー・ペースト機能を使ってテキストを取り出して再利用できます。

しかし、このテキスト抽出で取り出したテキストは、文字列の順番が画面に表示される(眼で見た順番)通りにはならないことがあります。

簡単な例を示しましょう。ここに二つのPDFを用意しました。サンプルPDFはダウンロードしていただけます。

PDF1(test.pdf)
PDF2(test2.pdf)

この二つのPDFを表示して横に並べますと、次の図のように画面に表示されるテキストは全く同じです。

この二つのPDFからテキストをコピーしてみます。これは次の操作でできます。
Adobe ReaderでPDFを表示している状態で、「編集」メニュー⇒「すべてを選択」します。選択範囲が次のように表示されます。

次に、「編集」メニュー⇒「コピー」して、メモ帳に貼り付けます。結果を比較してみましょう。

(1)次は左側のPDFから取り出したテキストです。

三連休の最終日10月8日(月・祝日)に開催された
技術書典5。
CAS電子出版は初回から連続して出典しており5回
目の出典です。今回は事情により初めてスポン
サーブースにて出典しました。
事前には大型の台風25号が上陸するかもしれな
いという予報もあり、大変心配しました。蓋を空け
てみますと台風の方は予想よりも速く通り過ぎて、
杞憂でしたが、運営の方々をはじめ心配されたこ
とでしょう。
こうしたイベントは天気次第というのはつらいとこ
ろです。雨にならなくて良かった!

(2)次は右側のPDFから取り出したテキストです。

三連休の最終日10月8日(月・祝日)に開催された
技術書典5。
事前には大型の台風25号が上陸するかもしれな
いという予報もあり、大変心配しました。蓋を空け
てみますと台風の方は予想よりも速く通り過ぎて、
杞憂でしたが、運営の方々をはじめ心配されたこ
とでしょう。
こうしたイベントは天気次第というのはつらいとこ
ろです。雨にならなくて良かった!
CAS電子出版は初回から連続して出典しており5回
目の出典です。今回は事情により初めてスポン
サーブースにて出典しました。

二つのテキストは内容の順序が違っています。このようにPDFでは画面または印刷上では同じ順序で表示される文字列であっても、テキストを抽出した結果が同じになるとは限りません。こうした問題を実際に経験されておられる方も多いでしょう。

このためPDFからテキストを取り出して再利用するのが難しくなります。最悪の場合、もう一度打ち直しになります。

参考資料:PDF資料室で、もう少し整理してみました。
「簡単そうで簡単ではないPDFのテキスト抽出」

アンテナハウスでは、この問題を解決する方策をいろいろと用意しておりますので、お困りの方は一度ご相談いただければと存じます。
お問い合わせ先