「日本語組版処理の要件」に見る英数字の扱い

日本語組版で文字・記号を行に配置するときの、文字間の空き量、文字間での改行の可否、行の調整のために文字間を空けたり・詰めたりの調整などの振る舞いは文字毎に異なります。その振る舞いが同じ文字や記号ごとにグループ分けし、これを文字クラスとすることにより、組版ソフトなどが文字クラス毎に振る舞いを管理できます。

「日本語組版処理の要件」(W3C技術ノート[*1]、以下、JLreq)では付属書Aに文字クラス、および各クラスに属する文字の一覧が出ています。これを、英数字ならびに(参考のため)ギリシャ文字、キリル文字といった文字の種類毎に、どの文字クラスに属するかという観点から再整理すると次の表のようになります。

Unicode cl-19 漢字等 cl-24 連数字中の文字 cl-25 単位記号中の文字 cl-27 欧文用文字
ラテンアルファベット大文字 U+0041~U+005A
ラテンアルファベット小文字 U+0061~U+007A
アラビア数字 U+0030~U+0039 U+0031~U+0034
ギリシャ大文字 U+0391~U+03A9 U+03A9
ギリシャ小文字 U+03B1~U+03C9 U+03BC
キリル大文字 U+0401
キリル大文字 U+0410~U+042F
キリル小文字 U+0430~U+0451

簡単に各文字クラスの特徴をまとめます。
・漢字類は全角形で、縦組み中では正立、任意の文字と文字の間で改行することができます。
・欧文用文字はプロポーショナル形で、縦組み中では横倒し、単語間でのみ改行できます。
・連数字の中では改行はできません。

JLReqではBasicラテンのアルファベットは、漢字類、欧文用文字の両方に属し、さらに単位記号中の文字にも属します。つまり、ラテンアルファベット文字は全角形をとり、任意の文字間で改行するという漢字のような振る舞いをする一方で、プロポーショナルな字形となり、単語間でのみ改行できるという振る舞いにもなります。

Basicラテンのアラビア数字は、漢字類、欧文用文字に加えて、連数字にも属します。

JLreqの本文では、Basicラテンのアルファベットやアラビア数字が、どういう条件で漢字として振る舞い、あるいは欧文文字、連数字中の文字、単位記号中の文字として振る舞うかは明確に記述されていません。

全体としてはコンテキストによって振る舞いを変えることができるものと想定されているようですが、例えばマークアップによって切り替えるということになるのでしょう。

先日紹介した「UAX#11 East Asian Width」[*2](以下、EAW)では文字に狭い(Narrow)、広い(Wide)、曖昧(Ambiguous)という特性を分けていました。Narrowは欧文用文字の振る舞いをし、Wide文字は漢字類の振る舞いをすることになっていますので、それぞれJLreqのcl-19とcl-27に相当します。

しかし、EAW#11では、Basicラテンの文字はNarrow特性をもち、Wide特性をもたないものとしています。

このように見ますとEAWとJLReqでは、Basicラテンの文字について、対照的な考え方を採用していると言えます。

[*1]日本語組版処理の要件(日本語版)
[*2]UAX#11 East Asian Width の紹介

■CASオンラインショップでCAS-UBのユーザー登録することで、誰でも30日間だけ無償でご利用いただくことができます。
CAS-UB評価ライセンス

「日本語組版処理の要件」EPUB版をIDPFサンプルにて公開

「日本語組版処理の要件」(W3C技術ノート)のEPUB3版を作成しました。日本語版と英語版ですが、IDPFのEPUBサンプル集に追加されています。次からダウンロードしていただくことができます。

○日本語版:jlreq_20120525_ja.epub 8.0 MB

○英語版:jlreq_20120525.epub 8.0 MB

「日本語組版処理の要件」については、W3CのWeb版が正式ですが、すでにプリント書籍版が発行されています(★)。これで、Web、プリント、EPUB版と3種類揃ったことになります。

EPUB版は、CAS-UBとは異なる方法で、大よそ次のように制作しました。

(1) データ準備
W3C WebページのXHTMLを中見出し単位で分割し、分割したファイルを入力データとします。メタデータは手書きの外部XMLとして用意

(2) スタイルシート
目次(ncx、nav)、パッケージ(opf)などのファイルを生成するXSLスタイルシートを開発

(3) バッチでEPUBビルド
(1)で用意したデータを入力とし、(2)のスタイルシートを使って、バッチ処理でEPUBをビルド

★プリント書籍版を作成した報告は、AH Formatter ケーススタディの次のページにあります。

AH Formatter V6 による JLReq の自動組版

「日本語組版処理の要件」W3C 技術ノート 2012年4月3日公開

「日本語組版処理の要件」の第2版が正式に公開されました。昨年11月に作業ドラフトとして公開されたものに対するコメント・意見を反映して正式版としたものです。

日本語組版処理の要件(日本語版)
W3C 技術ノート 2012年4月3日

第1版は2009年4月に公開され、欧米の専門家の間で高い評価を得ました。そして、CSS3の仕様に日本語組版の機能を盛り込む上で大きな貢献を果たしました。

第2版は、第1版で盛り込むことができなかった「第4章見出し・注・図版・表・段落の配置処理」を追加したもので、第2版をもって完結となります。

W3CのWebページで公開されているのはHTML版ですが、第2版の公開にあわせて4月10日にプリント版が東京電機大学出版局から発売になります。アマゾンで予約の受付が始まっています。

アマゾンの書籍案内ページ

このプロジェクトは日本語組版をプリントの世界からWebや電子書籍にまで広げていくためには、スタイルシートの仕様に日本語組版の指定機能を盛り込んでいく必要があり、そのためには、W3CのCSS(Cascading Style Sheets)やXSL-FOスタイルシートのワーキング・グループに日本語組版について理解してもらうための英文資料を用意する必要がある、というところから始まったものです。

プロジェクトが始まったのは、2006年の春ですので、ちょうど満6年かけて完成したことになります。長期間にわたり作業を続けてこられたタスクフォース・メンバーに敬意を表したいと思います。

CAS-UBは、この成果をソリューションとして実現することを目標の一つとしています。既に、CAS-UBのPDF生成のV2レイアウト指定で「日本語組版処理の要件」に沿ったページ組版を自動的に行なうような機能を組み込んでいます。しかし、まだ完全とはいい難いので今後もっと磨きをかけていく予定です。

○印刷技術協会において出版記念セミナーも開催予定です。
電子書籍と日本語組版
「W3C技術ノート 日本語組版処理の要件」出版記念

○関連Webページ
日本語組版処理の要件を作ったJapanese Layout Task Forceのホームページ:http://www.w3.org/2007/02/japanese-layout/