縦組み時の文字の方向に関する議論を解きほぐす試み (1)コンテンツの記述

春先から、「縦組み時の文字コード正立論」というテーマで何回かブログを書き、また、資料をEPUBにまとめてきました。そろそろ、その結論を出さなければならないだろうと考えて、Unicodeコンソーシアムのフォーラムに質問および意見を投稿しました。この投稿に関しては、Adobeの山本太郎氏から強い反対意見が出る[*1]など、残念ながら多くの賛成を得るにいたっていません。

また、Twitterの議論でも縦組時の文字の方向をどうすべきか、ということに関して多くの方から多数の意見が出ています[*2]。

国際電子出版EXPOの会場でも私の主張に同意される方、あるいは意見を異にする方数名の方と直接意見交換をさせていただきました。

この議論がとても難しい理由は、(1) これまで受けた職業的訓練など発言者の経験、あるいは美観といった主観に基づく判断と、(2) デジタル組版に関わる技術要素が極めて高度になっていることがあります。

(1) と(2)の両方が複雑に組み合わさっているため、問題の理解が難しく、従って、適切な解決策を提案するのが非常に難しくなります。そこで、あらためて(2)について検討することで、複雑に込み入ってしまった問題を解きほぐすことを試みてみたいと思います。

まず、テキストコンテンツ(Unicodeで記述されているものとします)があったとき、それが画面または印刷物(紙)として目に見える過程を図示し、それにどのような技術要素が関係しているかを簡単な絵で表してみます。

最初に、これらの技術要素について順番に簡単な解説を試みます。

1.コンテンツの記述

テキストコンテンツは一般には符号化文字集合で規定された文字コードを使って表現します。符号化文字集合としては、2000年ごろまではシフトJISが主流でした。これまでに蓄積されたコンテンツの量としては、シフトJISが圧倒的に多いと思います。

例えば、青空文庫はJIS X0201(但し、半角カナを除く)とJIS X0208の文字を使って入力し、シフトJIS形式で保存することになっています。JIS X0201(半角)とJIS X0208(全角)ではアラビア数字やラテンアルファベットがダブっていますが、これについては、半角と全角を使い分ける簡単な規則を次のように定めています[*3]。

・縦組みで正立しているラテンアルファベットは全角で、英単語は半角で入力します。
・アラビア数字は1文字のときは全角で、2文字以上は半角で入力します。

青空文庫の全角・半角の使い分けはシフトJISを使うときの基本的な方法と言って良いと思います。

さて、現在の多くのアプリケーションで採用している、符号化文字集合は、Unicodeが主流になっていると言って良いと思います。そして、今後新しく作られて流通するコンテンツはUnicodeベースに移行していくことになると予想できます。

2.シフトJISとUnicodeの違い

シフトJISは、MS-DOSのために開発された文字の保存方式(符号化方式)です。従って、MS-DOSが動作する環境であるPCに密接に関係しています。すなわち、文書を表示するディスプレイは半角と全角のセルをもつキャラクタ・ディスプレイであり、ドットパターンとして作成された文字がROM(リードオンリーメモリ)に保存されています。

JIS X0201の文字は半角幅のセルに表示され、JIS X0208の文字は全角幅のセルに表示されるということで文字コードとその表示幅は完全に1対1対応しています。

これに対して、Unicodeは新しい世代のコンピュータのための文字集合として設計されています。文字を表示する環境は、ビットマップ・ディスプレイであり、文字の字形はアウトライン(ベクトル)としてフォントファイルに収容されています。これにより、文字の幅も半角・全角というような固定幅から開放されて、プロポーショナルな幅をもつ字形のデザインが可能となっています。

こうした環境変化に対応し、Unicodeは文字とグリフ(字の形)を分離するCharacter-Glyphモデルを採用し、Unicodeは抽象化された文字(Character)を定義することになっており、文字の表示形は定義しないとされています。

Unicode標準はグリフイメージを定義しない。標準は、グリフがどのように可視化されるかではなく、文字がどのように解釈されるかを定義する。(中略)Unicode標準は、画面に見える文字の詳細な形、大きさ、方向は定義しない[*4]。

[*1] Fundamental questions
[*2] http://togetter.com/li/251192
[*3] 青空文庫工作員作業マニュアル (2011年11月20日第二版)
[*4] Unicode 仕様書第1章より引用

縦組みにおける半角文字の扱い―ワープロ専用機はまったくばらばら

UnicodeにUTR#50という仕様案ができて、Unicodeの各文字(キャラクタ)に対して縦組み時のデフォルトの方向を定義しようとしています。すでに、このブログで何回も書きましたが、現在、そのことをいろいろ考えています。半角形と全角形の扱いを少しさかのぼってみようと思い、初期のOA機器であるワープロ専用機での扱いを調べてみました。

ワープロ専用機はもう販売されていませんが、1980年代の半ばに登場し、1990年代に急速に普及したのですが、マイクロソフト Wordや一太郎などのパソコン用ワープロソフトとの競争で売れなくなり、2000年代初頭までに全メーカが生産終了してしまいました。もう使用している人はあまりいないと思います。

ワープロ専用機で縦組み文書を編集・印刷するときの半角文字の扱いを調べてみてびっくりです。各社各様でまったくばらばらです。

●ルポ、書院は半角文字も正立させていますが、なんと高さを1/2にしています。
●文豪 JX-750は半角文字横倒し、富士通OASYS LX-9500SDは横倒しと正立です。

当時のワープロ専用機の表示・印刷の技術的制約の中で各社が取り扱いを工夫していたのでしょう。
詳しくは下の報告と模式図をご覧ください。

■各社のワープロ専用機の半角縦書き文字の扱い(報告)

会社にあった主要ワープロメーカの4機種の縦書き編集における文字の方向(印刷については、インクリボン等が切れているため、ワープロ上のプレビュー機能での確認によります。

●東芝RUPO JW06H
(1)縦書き文書編集時、画面での縦書き表示無し(横書き表示で編集して印刷時縦書き)

(2)印刷
全角文字の正立に対して
半角文字も正立し、全角1文字分の高さに2文字を配置(文字の高さを1/2に変形)

●シャープ 書院 WD-V01
(1)縦書き文書編集時、画面での縦書き表示無し(横書き表示で編集して印刷時縦書き)

(2)印刷
全角文字の正立に対して
半角文字も正立し、全角1文字分の高さに2文字を配置(文字の高さを1/2に変形)

●NEC文豪 JX-750
(1)縦書き文書編集時の縦書き表示有り
画面表示
縦書き文書編集時
全角文字の正立に対して
半角文字も正立し、全角1文字分の高さに2文字を配置
(2)印刷
全角文字の正立に対して
半角文字は横向きで全角1文字分の高さに2文字を配置

●富士通 OASYS LX-9500SD
(1)縦書き文書編集時の縦書き表示有り
画面表示
縦書き文書編集時
全角文字の正立に対して
半角文字は横向きで全角1文字分の高さに2文字を配置

(2)印刷
「縮小文字の向き」という設定があり、下記の2種類から指定
「横向き」 あるいは「縮小文字2文字単位で縦向き」
(この機種では縦書き指定時、必ず選択させられる。一応、初期選択は「横向き」)

a. 「横向き」の場合
全角文字の正立に対して
半角文字は横向きで全角1文字分の高さに2文字を配置
(画面表示と同じ)
b. 「縮小文字2文字単位で縦向き」の場合
全角文字の正立に対して
半角文字も正立し、全角1文字分の領域に半角2文字を配置
AB
CD
E

●模式図

個人的な感想ですが、1990年代の初頭~前半は、私も「リッチテキスト・コンバータ」を中心に、ワープロ専用機-パソコンソフトの文書変換仕様などを作成したり、開発に関わっていました。当然半角文字の扱いは調べていたはずなのですが、改めてすっかり忘れていたことに気がついて、忘れていた自分に呆れてしまいました。

●「リッチテキスト・コンバータ

CAS-UBに月次更新契約、Webから評価ユーザー登録、PayPal決済の新メニュー追加

7月3日よりCAS-UBに次の3つの項目を追加します。

1.正式ライセンスの月次更新契約
2.Webからユーザー登録できる機能
3.利用料金のPayPal決済

各項目の概要は次の通りです。

1.正式ライセンスの月次更新契約

CAS-UBの正式ライセンス契約は、これまで半年、1年間の2種類でしたが、新しく1ヶ月単位の自動更新契約を追加しました。これにより短期間のプロジェクトで書籍を制作したい用途にもお使いいただくことができます。

CAS-UB正式ライセンスについて(1ヶ月自動更新)

2.Webからユーザー登録できる機能

従来は、ユーザー登録は営業窓口経由でのみ受け付けていました。今回から新しくWebからCAS-UB評価ライセンス(30日間)のユーザー登録ができるようになりました。どなたでも気軽にCAS-UBをお試しいただくことができます。

CASオンラインショップでの評価ライセンス登録

3.利用料金のPayPal決済

これまでは、営業窓口または販売代理店のみで販売していました。新しく1ユーザーの半年契約・年間契約・1ヶ月契約については、CASオンラインショップでPayPal決済していただくこともできるようになりました。

CASオンラインショップでの決済

メルマガを縦組みのEPUB3やPDFに自動変換する方法の検討

UTR#50の仕様のことを何回も書いていますが、CAS-UBでこのことを取り上げる理由の一つとして、横書きで書いたメルマガを縦組みのEPUB3やPDFによる電子書籍で読むことができるようにしたい、という狙いがあります。

CAS-UBでは、メルマガをEPUBに変換するサービスを計画していますが、いまのところ横組みについての目処をつけた段階です。その後の段階として縦組みはもちろん考えているのですが、縦組みにするには一段階高いハードルがあります。

そう、「文字の方向」です。ほとんどのメルマガでは、英数字と記号が頻繁に出てきます。その英数字と記号の文字コードはほとんどが、Unicodeの基本ラテンブロック(ASCII)範囲のコードになっています。そして、現在、多くのEPUBReaderは、基本ラテンブロックの文字を横倒しにしています。このためメルマガ中の英数字が全部横倒しになってしまいます。これではとても読めません。

ということで、横倒しの文字の方向を調整するのが次のハードルとなります。処理方法として①1文字ずつ正立、②数字は2文字ペアで縦中横、③文字列全体を横倒し、とするとして、この処理を行なうべき箇所がどの位あるかをカウントしてみます。

現在のメルマガの最高峰とも言える『津田大介の「メディアの現場」』(Vol.36、2012年6月30日発行)を題材にして、その中から数ページを取り上げて、①~③の発生頻度を見てみましょう。

CAS-UBでEPUB変換して縦組スタイルシートを適用したものをAdobe Digital Editions 1.8.1で表示して、①にしたら良い箇所を緑で、②にしたら良い箇所を橙で、③にしたら良い箇所を水色の枠で囲ってしめしてみました。

1.「今週のニュースピックアップ」の中の1ページ

このページは、①7箇所、②4箇所、③なしとなります。

2.津田大介クロニクルの中の1ページ

このページは、①8箇所、②1箇所、③4箇所となります。

3.今週の原発情報クリッピングの1ページ

このページは、①7箇所、②7箇所、③5箇所となります。

4.奥の細道の1ページ

このページは、①9箇所、②10箇所、③1箇所となります。

●以上の4ページだけでみますと、

①英数字を1文字ずつ正立させると良い箇所:31箇所
②数字をペアで縦中横にすると良い箇所:22箇所
③英数字を文字列全体として横倒しすると良い箇所:10箇所

となります。

いままでに様々な縦組み書籍の文字の方向を調べて、このブログで結果を報告してきました。それと凡そ同じ傾向を示しています。

数字については横倒しすると良い箇所はほとんどなくほぼ正立が望ましくなります。特に縦中横にすると良い箇所が非常に頻繁に出てくるのが特徴です。

『津田大介の「メディアの現場」』は、URLが頻出します。この例でもURLが4箇所ありますが、それを除くと通常に書かれた日本語文章で英数字を横倒しすべき箇所は少ないことが分かります。

さて、いま、手作業で方向指定方針を示したのですが、これを自動的に判別して最適なマークアップをすることができるとメルマガの縦組みEPUB、縦組み書籍化が自動的に実現できることになります。

英数字がデフォルト正立であれば、このマークアップ数は半減しますが、プログラムで処理するなら作業負荷はどっちでもそれほど変わりません。

看板の文字にみる英数字の方向

春先からずっと議論しているUnicodeのUTR#50という仕様のこと。文字のデフォルト方向を決めようというものなのです。

どうも、Twitterに登場するデザイナーとかDTP制作者は英数字のデフォルトが横倒しになってもあまり困らないようで、世間の感覚とずれているように感じます。このずれは、ある印刷業界に詳しい人の忠告では、彼らはずっと昔からそれでやってきたし、そのように訓練されてきており、現状でちゃんと仕事ができているし、困っていないから話しても無駄なのだそうです。プロとはそういう訓練を受けている人のことなのでしょう。まさしくプロフェッショナル恐るべしです。

で、その忠告者によると、そういう人にはご苦労さんとだけ言って議論は避けるようにする方が良いと。

しかし、Twitterに出てきて意見を言うのは、みんなプロばかりなんですよ。

まあ、そんなことで、会社の近くの看板の文字をいくつかピックアップして憂さ晴らし。

1.地名番地

近くの中央区の看板ですが、数字の20は縦中横という方式で正立しています。Chuo-ku Nihonbashi Kodenmachoの文字も縦中横という方式で正立です。

2.東京三菱FUJ銀行

UFJはアルファベット大文字で正立です。

で、どうよ、やはり世の中正立が多いじゃないかと思ったら・・・

3.みずほ銀行

みずほ銀行の看板には、横倒しのロゴが入っていました。まあこれは正式な銀行名ではなくて、デザインされたロゴなので、他とか少し違うのでしょうね。