コンテンツの構造化とは何か? 構造化の目的、手段は? Word文書のスタイル付けとマークアップの関係

自由奔放に記述された文書は構造化文書とは言わない。そうではなく、予め定めた一定の型にはめて記述した文書が構造化文書である。ここでは構造化文書とはなにか? 構造化の目的、構造化の手段について簡単に整理してみる。

1.構造とはなにか?

例えば、書籍は、表紙、前書き、目次、本文、後書き、奥付という大枠の構造を持つ。本文はさらに大見出し、中見出し、小見出しを必要に応じて繰り返すという構造をもつ。さらに本文の文章の中には、箇条書き、引用、表をもつという階層構造になっている。また、章や節、図表には番号をつける。注釈、参考文献は、参照元と参照先への対応関係をもつ。

これらはすべて書籍に関わる構造である。こうした構造は文脈・意味と強い関係をもつ。一般には、文脈を明らかにし、意味を捉えやすくするように構造化する。

2.印刷における構造の表現

印刷した書籍においては、表紙、前書き、目次、本文、後書き、奥付はそれぞれの体裁で表現される。見出し、段落の位置(上下・左右の余白の量など)や箇条書き、文字の修飾(強調、斜体、ゴシック体、文字の大きさ)などは文章の文脈や意味が明確になるような書式になる。たとえば、見出しの文字を本文よりも大きくしたり、前後に空き(行間)を広くとるのは見出しであることを分かりやすく示すためであるし、ある特定の段落の左余白を広く取った場合、それは、引用や注記など本文とは異なる段落であることを示すためなのである。注釈であれば、参照元には合印をつけ、参照先に注釈のテキストにも同じ印をつけて参照関係を表す。

3.意味の認識

人間が書籍を捲り、テキストを読む目的は意味を認識することである。テキストを読みながら、構造の認識の支援を得て、テキストの意味を、より容易に、正しく認識できるのである。

4.文書のコンピュータ処理と構造の表現

プログラムによるコンピュータ処理では文書の構造を取り扱うことが多い。構造の取り扱いの主な例は、構造の変換と可視化である。構造変換の例としては、オーサリング形式から配布用の形式への変換がある。オーサリング形式とは編集作業に最適化された形式である。例えばDITA(Darwin Informaton Typing Archtecture)はオーサリング形式である。配布形式とは読者の手元で可視化するのに向いた形式である。可視化には、スクリーンへの表示、紙への印刷、音声で読み上げなどを含む。現在の2大可視化ツールはPDFリーダとブラウザである。DITAでコンテンツを作成したとき、最後に配布形式であるPDFやHTMLなどに変換する。DITAではこれをパブリッシングという。

このようなコンピュータ処理では構造が必須である。しかし、コンピュータでは人間のようにテキストを読みながら構造を認識することができない。そこで、テキストの中に明示的に構造を表す印をつける必要がある。これがマークアップである。

5.XMLマークアップ方式

現代のマークアップ方式の代表はXMLである。XML方式では構造を要素や属性というマークアップで明示的にあらわす。

例えば、見出しは、人間にとっては本文と比べて大きな文字であることをキーにして認識する。一方、XMLでは見出しの範囲をマークアップすることで明示的にあらわす。見出しというマークアップした場合、文字が大きいこと・文字がゴシックであることなどの見出しを視覚的に区別するスタイル指定はマークアップの方で担う。見出しの文字列は、本文と同じテキストで表す。

そこで、マークアップをすることは狭義のコンテンツである見出し文字列と見出しに指定するレイアウトという視覚要因を分離することであるといっても良い。このような意味で、コンテンツとレイアウトを分離するという言い方をすることもできるだろう。

XML方式で文書をマークアップすることで文書をコンピュータで簡単に加工処理できるようになる。XMLを使うメリットは、さまざまな基盤ツールが提供されていることである。先ほどのDITAの場合は、DITA-OTというパブリッシング用のツールがオープンソースとして提供されている。こうした基盤ツールを自分で作らなくても済むというメリットは大きい。

6.XMLの作成

XMLでマークアップするのは、あくまでもコンピュータ処理のためである。つまりXMLにしても、人間にとってはうれしくない。こうしたことからXMLは一般の人には無縁である。このため専門家以外にはあまり好かれないのだが、これはやむを得ないだろう。

しかし、文書をXML化することで、メリットが生まれる場合もあり、あるいはXML化しないとどうしようもない場合がある。どういう場合にメリットがあるかを考えてXML導入しないと無駄になる。また、XML化のコストはかなり大きい。そこで、これをどうやって簡易的に実現するかを考えることも必要である。

7.Microsoft Wordのスタイルを使う方法

Microsoft Wordにはスタイル機能がある。見出しというスタイルを定義しておき、ある文字列に見出しスタイルを適用すると、その適用された文字列の文字がいっせいに大きなゴシック体になる、というものである。

こうしてみるとMicrosoft Wordのスタイル機能は、XMLにおけるマークアップに近い機能であることが分かる。このようなことでスタイル機能を使って記述したMicrosoft WordはXMLで構造化した文書に比較的容易に変換することができる。

一方、同じMicrosoft Wordを使って、スタイル機能を使わずに、見出し文字列をその都度、文字修飾(フォント機能)と段落修飾(インデント、改行幅)をつかって外見を指定して作成した文書を作ることができる。このような作りかたをした文書はXMLに変換しにくい。XML化するときに、すべての見出しをいっせいに特定のマークアップに変換しにくいのである。それは、ときどき、修飾を忘れるなどの例外があるからである。

CAS-UBのWord変換は、スタイル機能を推奨している。Wordが標準でサポートしている機能であり、スタイル付けは比較的簡単だからである。

しかし、Microsoft Wordで作成した文書をXML化する方法として、Wordのスタイル機能を使う以外にもまだ他に方法がある。例えば、大見出しにするテキストには、特定の色を付けるなどが考えられるだろう。これをCAS-UBのWord変換で実現している事例もある。