UTR#50 のドラフト第5版に関する批判的コメント

日本語を縦組みしたときに、文字の方向をどう決定するかということについて、何回もブログで書いてきましたがこれはかなり悩ましい問題です。CAS-UBでも縦組のPDFを生成したり、EPUB3には縦組みレイアウト用CSSを指定できますので、早急に整理しなければならないと思っています。

UnicodeやCSSワーキンググループでは、この検討が精力的に行なわれており、UnicodeのUTR#50が先日(5月17日)ドラフト第5版になりました。

http://www.unicode.org/reports/tr50/tr50-5.html

今回の大きな変更点は、レポートの表題が「Unicode Properties for Horizontal and Vertical Text Layout」に変わったことです。従来は、「Unicode Properties for Vertical Text Layout」でしたが、今回から横書きでの文字の方向に関する記述が追加になりました。

横書きプロパティが追加になりました。

○プロパティ
横書き(Horizontal Orientation、HO):横書き用
縦積み方向(Stacked Vertical Orientation、SVO):文字がほとんど正立する世界における縦行用
混在縦組み方向(Mixed Vertical Orientation、MVO):東アジア、特に日本、中国、韓国の縦行用

UTR#50はUnicodeの文字に対して3つのプロパティにおける文字方向のデフォルト値を規定するものです。

○プロパティ値は次のように規定されます。

U:コード表に表れるのと同じ方向で、正立表示する文字
R:コード表を時計方向に時計方向に90度回転して、横倒しで表示する文字
L:コード表を時計方向に反時計方向に90度回転して、横倒しで表示する文字
T、Tu、Tr:単に正立または横倒しではなくて、縦組みで使うときはコード表とは異なるグリフを必要とする。Tuはフォールバックとしてコード表のグリフを正立で使うことができる。Trはフォールバックとしてコード表のグリフを時計方向に90度回転して使うことができる。

Unicodeの各文字に対するプロパティ値のデータ表が提供されています。

http://www.unicode.org/reports/tr50/tr50-5.Orientation.html

第5版では、プロパティ値のデータ表に、HOの列が追加になりました。一方、MVOの値は、これまでA案とB案提案されていましたがB案に一本化されました。

■問題点
UTR#50には、かなり大きな問題があります。

その1:SVOとMVOが明確に規定されていないこと。

原文は次のようになっています。

SVO:「… intended to be used for vertical lines in those parts of the world where characters are mostly upright. 」
MVO:「… intended to be used for vertical lines in East Asia, and more specifically in Japan,…」

MVOについてはサンプルの図3があり、和欧混植の組版を意味していることは明らかです。しかし、SVOの定義でいうところの「文字がほとんど正立する世界」とは一体どこのことなのでしょうか?MVOの定義には「東アジア特に日本の縦書きの行」とありますので、するとSVOは日本は属さないと読めてしまいます。

このあたりの定義をもっと明確にする必要があります。たとえば、SVOは和文のみ、MVOは和文と欧文が混ざるときというように。しかし、おそらく少なくとも日本語の書籍についてはSVOという世界はほとんど存在しないので、日本語の書籍ではあまり意味がない概念でしょう。

その2:方向特性値の決め方がまずい。

方向特性値は、「This default determination is based on the most common use of a character, …」とあります。つまり、デフォルトの方向は文字の最も一般的な使用法に基づいている、とのことです。しかし、最も一般的な使用法をどうやって判断しているか理解できません。

たとえば、プロパティ値のデータ表で見ますと、アラビア数字(ASCIIコード範囲)は、MVOで「R(横倒し)」と決めています。

MVOのサンプルである図3(Figure 3. Japanese vertical text)には数字が3箇所に出てきますが、いづれも正立で、横倒しになっていません。アラビア数字をMVO:Rとするのは、このサンプル図に矛盾しています。たった1枚の図で判断するなよ、と言われるかもしれませんが、しかし、日本で実際に販売されている縦組みの雑誌や書籍では、アラビア数字の大半は正立です。これは市販の縦組本を少し調査すればすぐに分るはずです。

たとえば、このブログで先週調査結果を報告した「刑務所なう。」には、アラビア数字が数百箇所はでてきますが、横倒しになっている箇所はほとんど例外的と言って良いほど少なく、アラビア数字の99%以上は正立しています。

「刑務所なう。」にみる縦組みにおける英数字・記号の向きを参照のこと

方向特性値を「(市販の書籍や雑誌における)最も一般的な使用法」とするならば、例えばアラビア数字(ASCIIコード範囲)は、間違いなくMVOで「U(正立)」にしなければならないでしょう。そうするとUTR#50の「最も一般的な使用法」はどうやって決めているのでしょうか?

もしかすると、InDesignのデフォルトが横倒し?そうすると、DTPオペレータが毎回せっせと数字を立てていることになるのですが。

ここで白状しますと、AH Formatterもアラビア数字(ASCIIコード範囲)は、MVO:Rなのです。困ったな。

つまり、いままでは英数字はASCIIコード範囲は縦書き時横倒し、互換コード範囲は正立という方式がずっとすべてのアプリケーションの実装となっていたのです。で、方向特性値を「(ベンダにとって)最も一般的な使用法」と定義すれば矛盾はなくなるのですが、それで良いのだろうか?いや、それではだめだろう、ということなのです。

「刑務所なう。」にみる縦組みにおける英数字・記号の向き

原稿用紙を使って原稿を書き、縦組で書籍を作った時代には原稿と出来上がり書籍で文字を書き進める向きが異なることがなかった。しかし、現在のようにワープロを使って横書きで原稿を書いたものから縦組で組版する時代には、原稿と書籍で文字の進行方向が根本的に異なってしまう。このため文字の向きの扱いが混沌となりがちである。

「刑務所なう。」はメルマガ「堀江 貴文のブログでは言えない話」を元にして編集した書籍である。横書きメルマガではラテンアルファベットやアラビア数字がふんだんに使われている。これに相応して「刑務所なう。」には縦組の中にラテンアルファベットやアラビア数字が頻繁に現れる。

こうしたことから「刑務所なう。」はプリント版の縦組み書籍における英数字の方向を検討するための格好の材料でなる。以下に、堀江メルマガと「刑務所なう。」で英数字と記号がどのように使われているかを調べ、メルマガと書籍の文字方向の違いを簡単にまとめてみた。

1. ラテンアルファベット
1.1 メルマガ
ラテンアルファベットはほとんどASCII文字(U+0030~0039、U+0061~007A)で表記されている。互換文字(U+FF10~FF19、U+FF41~FF5A)は皆無ではないが、むしろ誤って使われているように見える。

1.2 書籍
本書籍ではラテンアルファベットの文字列は、①一文字ずつ正立、②縦中横または全角単位字として正立、③横倒しの3通りで現れる。全体としてみるとアルファベットは一文字ずつ正立で現れることが多い。大よそ次の(1)~(3)の規則に従っているようだ。しかし、同じ文字列(Big Dog)が1文字ずつ正立して現れたり(p.383後ろから2行目)、横倒し(BigDog)で現れたり(同最終行)と必ずしも統一がとれていないところがある。

(1) 一文字づつ正立
アルファベット大文字だけの単語や文字列は一文字ずつ正立している。

・大文字1文字: D棟8F(D、8、Fを1文字づつ正立)、B2駐車場、Tシャツ、担当のS
・大文字2文字の略語: OB、NG、TV、DJ、、IP通信、UP、PC、PM、AM(pp.56~57)、CD、QA、QBチーズなど2文字でも縦中横にせず各文字を1文字づつ正立する
・大文字のみからなる単語:WEEKS(pp.37~38)、「THE 昭和」、MTG(ミーティング)。堀江語という方が適切かもしれない。
・大文字を連ねる頭字語:Y・T(Y、Tは姓と名の頭文字、’・’は中点)、ICANN、IFRS、FTA、TPP、DVD
・大文字のみからなる書名、番組名、映画題名など(固有名詞):「JAM THE WORLD」、「J-WAVE」、「JIN」、「TIME LINE」、DENPO、TOKYO FM、EADS社、SNS(社名)、WIRED

(2) 縦中横または全角単位字

単位文字は小文字であっても縦中横にして正立している。

・単位:cm、mm、kg、sec、No.、kcal [p.96 4文字まで?]
・その他:or、Mr. [p.96]、

例外)単位であるが、縦中横になっていないこともある。

・MHz(p.43、縦中横にせず1文字ずつ正立)

(3) 全体を横倒し
単語の中に小文字が入ると固有名詞であっても単語または単語句全体を横倒しにしている。

・小文字が入るラテンアルファベットの名詞:Apple、Google、Google PC(PC含めて横倒し)、Eee PC(同)、ziploc、Kinect、NUAds、Amazon、zip、Live、Good、「We are 宇宙兄弟 VOL.03」[p.96]
・メールアドレス、URL:.com、.net

例外)
しかし、小文字が入っているが1文字ずつ正立しているケースもある:「Bay FM」、gTLD、「NExTWORK」

2. アラビア数字
2.1 メルマガ
(1) ASCII文字(U+0030~0039)と互換文字(U+FF10~FF19)の使い分けについて

メルマガではアラビア数字はASCII文字が主体であるが、ときどき互換文字が使われている。例えば95%(ASCII文字)のような表記が主体だが10%(互換文字)という表記も出てきたり、日付は5/28(ASCII文字)が主体だが、5/20(互換文字)表記もある。このように、メルマガではASCII文字と互換文字が混在している。プリントと比べてややルーズな印象を受ける。

(2) 数字の書き方の例
年月日、時刻、単位付きの数値などはほとんどすべてアラビア数字で記述されており、漢数字は少ない。

アラビア数字の例
・単位付き数字:36000メートル
・日付:2012/4/16、5/28(ASCII文字)
・数値の桁区り:3,208円
・小数点:68.3kg

2.2 書籍
書籍(本文)ではアラビア数字はほとんどすべて正立表記である。次のような規則になっている。

(1) 1桁の数値は正立
(2) 2桁の数値は組にして縦中横。たとえば、11:30 は11が縦中横。’:’(コロン)は横倒し全角幅、30が縦中横である。68.3kgは、68を縦中横、’.’は全角幅中点、3を正立である。
(3) 3桁~4桁の数値は一文字ずつつ正立させる。2012年のような年号は一文字ずつ正立、98,830円のような5桁以上の数値は9万8830円のように4桁ずつにして、各すべての数字を正立させている。本書籍の中では5桁以上の数値はほとんど出現しない。
(4) メルマガと書籍の違いともいえるが、日付はメルマガでは2012/4/10というような表記になっていても書籍では2012年4月10日(10のみ縦中横で、他の数字は1文字ずつ正立)のように変更しているようだ。

数値が横倒し表記になっている箇所は極めてまれであり、例外と言っても問題ないくらいである。横倒し箇所を具体的に示す:
・3.14159Bill$(p.101、数値と単位全体を横倒し)、
・「We are 宇宙兄弟 Vol.4」 (p.501、書名の英数字部分が横倒し)
・H2O(p.508、水の化学式全体を横倒し)、O3(同、オゾンの化学式全体を横倒し)

○書籍の情報
書名:「刑務所なう。ホリエモンの獄中日記195日」
発行日:2012年4月5日第二刷
著者:堀江 貴文
発行所:文藝春秋社
ISBN: 978-4-16-374980-8

○本ブログ記事を「縦組みにおける英数字正立論」0.35版に反映しました。
こちらからダウンロードしていただくことができます。
CAS-UBで制作、無償配布している出版物