コンテンツの構造化にはいくつかの視点がある。ひとつは、大域か局所かというレベルである。
大域構造化とは、書籍で言えば記事を目次のレベルで分類したようなものである。すなわち、書籍は、前付け、目次、本文、後付といった大きな枠組み構造をもち、その下に、たとえば本文であれば、章、節、項という枠組み構造があり、全体としては木構造になる。
章、節、項という構造とは別に、柱、ページ番号(ノンブル)、脚注と言う構造がある。これは、本文の流れと関係するが、主にコンテンツにアクセスするための構造である。柱、ページ番号や脚注は可視化するときに内容と場所が決まるものである。分かりやすい例として柱をあげると、書籍の頁に片柱で章の表題を付けるとすると、その表題が現れる回数や場所は判型や版面によって異なることになる。
索引なども表示に依存する構造である。索引語を整理して配置して、索引から本文への参照をつける。印刷した書籍ではページ番号、Webや電子書籍ではリンクによる参照になる。電子書籍では検索があるので、索引は要らないのではないかというかもしれないが、全文検索ではヒットする箇所が多すぎて、情報を探すのに却って時間がかかるケースが少なくない。情報にアクセスするための構造としての索引は重要である。
局所構造化とは、テキストの中のセマンティックスに沿うものである。具体的な例は、先日紹介した「DITAの実践」の説明がある。節や段落よりも小さな断片情報を構造化することで検索・変換・表示などの便宜を図るものである(下記の「セマンティックスの役目とは」を参照)。
構造化における大域構造化と局所構造化の一つの例はDITAにおけるTopicとMapである。これはまさに大域構造化と局所構造化の使いわけであると考えている。実際のところMapの中にもかなり細かい指定があるのでそう簡単ではないのだが。
但し、大域構造化と局所構造化の概念は述べている人は少ない、というかこれは私の造語に近くあまり市民権はないし、まだ論理構成がずさんであるが、分かりやすいと思う。今後、もっと精密化したいと考えている。
◎過去の関連ブログ記事
1.セマンティックスの役目とは
12月11日CAS-UBブログ
2.コンテンツの構造化とは何か?Word文書のスタイル付けとマークアップ
http://d.hatena.ne.jp/cassupport/20110906/1315262225