CAS-UB:多言語機能に魂を入れるため、ドキュメントの多言語化と、EPUBの多言語化を考える

CAS-UBで多言語のEPUBとPDFを制作する方法を検討します。以前に(2012年6月)紹介しましたようにCAS-UBのPDF生成では多言語化に向けてフォント設定機能を導入しています[1]。しかし、この時、枠組みは作りましたが、クラウドサービスで使える適切なフォントが見当たらなかったため中国語(繁体字)、中国語(簡体字)は利用できず、いわば、仏を作って魂を入れない状態のままでした。

その後、今年(2014年)になって7月にGoogleが、日本語・中国語(繁体字)・中国語(簡体字)をサポートするオープンソース(アパッチライセンス)Noto Sans CJKフォントを発表しました[2]。これによりクラウドでの日中を含む多言語組版サービスの提供が現実的になってきました。

このように環境が整ってきましたので、CAS-UB次期バージョンでは、多言語出版物制作サービスを現実化したいと考えております。そこで、まず、ドキュメントの多言語化、なかんずくEPUBの多言語化の課題を整理してみます。

CAS-UBは、CAS記法という独自マークアップしたコンテンツからPDFとEPUBを同時に作り出すことを目標にしているので、多言語サービスにはいくつか克服すべき課題があります。多言語PDFの作成自体は、AH Formatterの得意な機能なので大きな問題はありません[3]。また、PDFではフォント埋め込みの環境が整っており、多言語フォントを埋め込んだPDFを制作し、これを流通させるのに困難はありません。

難しいのはマークアップ、さらには多言語EPUBの生成と流通です。多言語ドキュメントのキーポイントはフォントの埋め込みですが、EPUBのフォント埋め込みは、技術的にはPDFとかなり異なっており、いろいろ課題があります。

ということでまずは基本から考えてみることにします。

多言語化を大きく分けると、次の二つの方向があります。

(1) 第一は言語別パッケージを多言語版揃えるという方向です。すなわち、書籍であれば、その日本語版、英語版、中国語(繁体字)版、というようにいろいろな言語の翻訳版を揃えることになります。
(2) 第二は一つのパッケージの中に複数の言語の表記を含む方向です。この場合、1冊の書籍の中に、日本語、英語、中国語(繁体字)の表記を混在させます。

普通、多言語化というときは(1)の方向が主流でしょう。ドキュメントを活用するのは人間ですが、かれらの多くはひとつの言語を解するわけなので対象とする人が理解できる範囲でパッケージングするのは自然です。これをある言語のEPUBで制作したとき、そのEPUBの読み手は自分の解する言語を表示できる機器を使うことを想定するのは自然です。この場合は、多言語といっても一つ一つのパッケージは1言語です。フォントの埋め込みの必要性もあまりありません。多言語化は、例えば書籍では組版規則(番号の付け方、読み進める方向、レイアウト規則などの言語による相違)やパッケージングの方法(右閉じ・左綴じなど綴じ方、権利関係頁・奥付けの配置場所などの言語による相違)の問題となります。

第二の方向では、(a) 1冊の書籍を、日本語パート、英語パート、中国語(繁体字)パートのようなパートから構成するケース、(b) 1ページの左列を日本語、中央列を英語、右列を中国語(繁体字)というように対訳形式にするケース、(c) 一つの段落の文章に複数の言語の文節が入る場合があります。

(2)の(b)は、ユーロやカナダのように領域内・国内で複数の言語が公用語として使われていて複数言語の対照表が常に必要な場合、あるいは対訳の参考書を作成するときなどが当てはまります。(2)(c)では辞書や言語学習のための書籍などでみられますが「多言語混植」が必要となります。この場合、フォントの問題がかなり大きなウエイトを占めるでしょう。

10/29につづく

◎参考資料
[1] CAS-UB多言語化へ向けて 一般フォント設定機能を追加しました
[2] オープンソースの美しい Noto フォントファミリーに日本語、中国語、韓国語が加わりました。
[3] 9月17日ライトニング・トーク「AH Formatter V6.2の特徴とFO、CSS」のご紹介