JATS-CON 2013より NLM-dtdのXMLからEPUBに変換するワークフローのメリットと課題(サマリー)

2013年のJATS-CONは、米国政府機関閉鎖の影響で半年遅れて4月1日と2日開催となりました。発表資料をみていましたら、EPUB関係の話題が二つあります。

Mike Dean, “The Challenges and Benefits of Automating NLM-to-ePub3 File Conversion”, CFA Institute

Gerrit Imsieke, “A Publisher’s InDesign to BITS and EPUB Infrastructure: Conventions, Configuration, Conversion, Checks”, le-tex publishing services GmbH

今年の発表資料はほかにも面白そうな話が満載です。ということで、とりあえず、Mike Dean さんの資料を一読。内容をかいつまんで紹介します。

内容はざっとメモしただけですので、関心をお持ちの方はぜひ全文をお読みください。
—-

CFAは、グローバルな投資家向けの情報提供を行なっている機関で、NLM-dtd形式のXMLによる出版を行なっている。近年はモバイル、対話的な出版を重視している。印刷主体から、提供形式多様化を図っており、HTML5ベースのEPUB3が有力候補である。既に、NLM3.0とMathMLを使っているので、XSLTでEPUB3を作ることができる。これは簡単なワークフローのはずであるが、いろいろ問題がある。

1.EPUBリーダーのフラグメンテーションが大きな問題である。これは同じコンテンツでもリーダーによって見え方が異なるので困るという話で、見出しは日本でも共通である。但し、本文で指摘している問題は、日本で言われる問題とは結構異なっている。できるだけ、印刷の本と同じレイアウトになるように工夫しながらも、次の対応策をとっている。

1.1 全般的対応策
・レイアウトを単純にする。フロートを使わない。
・リストのインデントはカスタマイズしない。
・表の幅や、行分割はリーダー任せとする。
・できるだけ多くのリーダーでチェックする。

1.2 個別問題
○EPUB3の後方互換性
・<figure>タグをうまく処理できないEPUBリーダーがある。
・<section>タグへのリンクを処理できないEPUBリーダーがある。
・epub:switch要素を使えないEPUBリーダーがある。新しい機能と後方互換機能を切り替えできない。
・NCXの@playOrder属性をXSLTで設定できないのでPerlで処理している。
○Kindleについては若干の配慮が必要である。
○eInkデバイスの限界
・画面からはみ出した大きな表をスクロール表示できない(表を一部表示できない場合が出てくる)ものがある。

1.3 表
・キャプションやラベル要素をもつ表は、<figure>で囲み番号か名前で参照する。
・OASIS形式の表を使っているので、HTMLの表に変換する。

1.4 テキストボックス
・<figure>要素で囲むか、<div>で囲むか

2.セマンティックスの扱い
EPUB3ではHTML5を採用し、セマンテックスを表現できるはずだが、EPUB2と比べるとややこしくなることがある。

2.1 セクションとdiv
NML-dtdには構造があるので、HTML5の構造にマップするのは容易であるが、セマンテックスタグは良く考えてマークアップする必要がある。また、NML-dtdからマップできないセマンティックスタグもある。

2.2 ePUB文書構造
NLM-dtdのsecは大よそXHTML5のsectionに、book-partはarticleにマップした。

2.3 Math
MathMLのマークアップは面倒である。一方で、EPUBリーダーでMathMLを表示できるものは少ない。epub:switch要素が機能しないの、フォールバック画像もいれにくい。ということで、Webから配布しているEPUBはMathMLを使わずに、数式を画像とした。

特定の流通ルートを通す教科書は、MathMLを使った。この場合、かなり慎重にチェックしたが、いくつか注意事項がある。

・カンマ区切りとmoオペレータ
・等号の位置揃え
・通貨記号
・上配置のキャレット記号

2.4 一部のセマンティックスタグの使い方に注意
・<blockquote>
・epub:type属性のスコープが狭すぎて教科書のコンテンツでサポートできないものがある。例えば、教科書の各章先頭の「学習成果」、巻頭の「使い方」、「問題と解答」

2.4.1 インラインのフォーマットの使い方
・<em>, <strong>, <b>, <i>

2.5 HTML5のセマンテックスタグの欠点
・オプションコンテンツを表せない
・数式のラベル
・参考文献
・NML-dtdの著者名タグを表現できない

3.課題
・10進数の桁ぞろえができない
・印刷ページ番号
・数式
・表のセマンテックスを表す方法がない
・ワークフローの全自動化

4.XSLによるEPUB3のメリット
XMLでコンテンツを作り、XSLワークフローでEPUB3を作成する方法には大きなメリットがある。
・一貫性
・信頼性
・速度と柔軟性