デジタル出版物の制作方法 特にコンテンツの入力・編集の方法について

デジタル出版物(EPUB、PDF)をワンソースマルチユースで制作するワークフローについて考えて見ます。

先日Facebookで(https://www.facebook.com/kotaro.soryu/posts/580833075321422)で大変参考になる議論がありました。次に、Facebookの意見を参考にしながらもう少し考えてみました。

「ワンソースマルチユースの進化が遅い」(高木さん)というコメントがありました。確かに、そのとおりと思います。ワークフローを実際に動かすには関係者の学習が必要であり、また、システム化するとシステム構築のコストがかかるため、なかなか簡単には切り替えることができません。WYSIWYGがかなり急速に普及したのと比べると、ワンソースマルチユースの進化が遅いのは、システムコストの側面と、利用者の慣れ・学習の側面があるように思います。

「学習コストは別としてTeXはやっぱりシステム自体は完成されている」(山本さん)というコメントがありましたが、確かにTeXは、スタイルセットがいろいろ用意されているなど完成度の高い仕組みができています。

ワンソースマルチユースのワークフローでは、コンテンツとレイアウトの関係を再定義する必要があります。そこで上流から下流を、①ソースコンテンツの制作、②中間コンテンツの編集、③配布コンテンツの生成に分けてみると良いのではないかと考えています。

①ソースコンテンツとは、伝えたい言語内容を表現する文字(テキスト)、画像、数式、場合によっては動画などの表現したい内容の素材です。
②中間コンテンツとは、ソースコンテンツを配布形式にする過程で、ソースコンテンツを統合して作業する対象です。InDesignを使う場合は、InDesignのファイル形式であり、HTMLでオーサリングするのであればHTML形式が中間コンテンツとなります。XML形式のこともあります。中間コンテンツは、オーサリングの対象となりますので、オーサリングの仕組みと対で考える必要があります。
③配布コンテンツとは、デジタルコンテンツの配布形式です。現在では、PDF, EPUB, Web, などが主流です。配布コンテンツはPDFのようにレイアウト処理済みの形式と、WebやEPUBのようにレイアウト処理を、可視化時に行なうものがあります。いづれにしてもレイアウト指定が重要なポイントとなります。

ワークフローを考える第一のポイントは、ソースコンテンツから中間コンテンツを作る方法です。第二のポイントは、中間コンテンツから配布コンテンツへの変換の方法です。

TeXは大変に優れたシステムですが欠点もあります。第一に、ソースコンテンツにTeXの命令を埋め込みます。そこで、制作者がTeXの命令の使い方を学習する必要があります。つまり学習コストが大きいのです。第二に、TeXは紙への印刷やPDFの生成ではシステムとして完成しています。しかし、Webコンテンツに変換しようとすると、留意しないといけない側面もあります。つまり、TeXの命令は、ドキュメント処理用の命令、文字の表現、数式の記述の命令、システムやユーザーのマクロ命令など、役割の異なる命令が不可分に混在しています。また、TeXが開発されたのは、8ビットCPUの時代です。このためTeXは、現在ならUnicodeで表すことのできる文字をコマンドを使って表すなど少々時代遅れです。また、数式の中にテキストの記述が混在しています。MathMLでは、数式の中にテキストの配置を記述することができないため、数式をMathMLのようなマークアップに変換するのは極めて困難です。TeXドキュメントの中にユーザーの作ったマクロ命令が入っていたら汎用のコンバータではWeb形式に変換できないでしょう。

最近、人気をあつめているマークダウンは、ソースコンテンツに簡単なテキスト記法でマークをつけて、それをマークダウン処理ソフトで、中間コンテンツであるHTMLに変換する方法です。マークダウンの長所は、テキストのソースを簡単に記述できることですが、欠点はコンテンツの形式が極シンプルなものなら良いのですが、少し複雑なものは非常に難しくなります。マークダウンを採用して、今年、人気をあつめたサービスに「でんでんコンバータ」[1]があります。この記法の説明を読むと、HTMLで頻繁に使うクラス属性やID属性をつけるのが難しいことがわかります。「でんでんコンバータ」は簡単なEPUBを作るには良いですが、PDFは作れません。

CAS-UBは、Wiki記法を拡張したCAS記法を使ってソースコンテンツにマークアップします。CAS記法では、クラス属性やID属性などを簡単に付けることができるようにしています。CAS記法の方がマークダウンよりは考え方としては進化しています。CAS-UBでは、生成処理でEPUBとPDFを両方とも作れます。

CAS記法にしても、マークダウンにしても、独自の記法を覚えなければなりません。この記法によるマークアップは、プログラム作成と比較するととても簡単ですし、HTMLを直接記述するのと比べてもかなり楽です。従って、IT系では受け入れられやすいようです。しかし、どうも、一般の著者・編集者・制作者には敷居が高いようです。

結論として、一般の著者・編集・制作者にとってもっとも敷居の低い方法は、WordなどのWYSIWYGのワープロで原稿を用意して、そこから自動的に中間コンテンツに変換する方法のようです。しかし、Wordはもともと紙に印刷する想定でレイアウトを指定します。そして、一般のユーザーはレイアウトを優先して編集することに慣れています。ところが、レイアウト優先の文書は中間コンテンツにうまく変換できません[2]。うまく変換するには、Wordのスタイルを使って構造を統制した文書を作らねばなりません。CAS-UBによるワンソースマルチユースを普及させるために、今後は、Wordによるスタイル編集の普及・啓蒙活動に取り組みたいと考えています。

現在、配布コンテンツの形式が紙のみからEPUBやWebまで多様化していることから、ワンソースマルチユースの重要度が高まっています。ワンソースマルチユースでは中間コンテンツからマルチ配布形式を生成するため、中間コンテンツはレイアウトを分離しておき、生成時にレイアウト指定処理を行なうのが良いと考えます。このメリットを生かすにはレイアウト指定をパターン化・テーマ化し、そのテーマを増やすことが課題です。

[1] 電書ちゃんのでんでんコンバーター – でんでんコンバーター
[2] 『マニュアルEPUB化ハンドブック2014年版  EPUBマニュアル研究会報告書』(第3章参照)