メルマガを縦組みのEPUB3やPDFに自動変換する方法の検討

UTR#50の仕様のことを何回も書いていますが、CAS-UBでこのことを取り上げる理由の一つとして、横書きで書いたメルマガを縦組みのEPUB3やPDFによる電子書籍で読むことができるようにしたい、という狙いがあります。

CAS-UBでは、メルマガをEPUBに変換するサービスを計画していますが、いまのところ横組みについての目処をつけた段階です。その後の段階として縦組みはもちろん考えているのですが、縦組みにするには一段階高いハードルがあります。

そう、「文字の方向」です。ほとんどのメルマガでは、英数字と記号が頻繁に出てきます。その英数字と記号の文字コードはほとんどが、Unicodeの基本ラテンブロック(ASCII)範囲のコードになっています。そして、現在、多くのEPUBReaderは、基本ラテンブロックの文字を横倒しにしています。このためメルマガ中の英数字が全部横倒しになってしまいます。これではとても読めません。

ということで、横倒しの文字の方向を調整するのが次のハードルとなります。処理方法として①1文字ずつ正立、②数字は2文字ペアで縦中横、③文字列全体を横倒し、とするとして、この処理を行なうべき箇所がどの位あるかをカウントしてみます。

現在のメルマガの最高峰とも言える『津田大介の「メディアの現場」』(Vol.36、2012年6月30日発行)を題材にして、その中から数ページを取り上げて、①~③の発生頻度を見てみましょう。

CAS-UBでEPUB変換して縦組スタイルシートを適用したものをAdobe Digital Editions 1.8.1で表示して、①にしたら良い箇所を緑で、②にしたら良い箇所を橙で、③にしたら良い箇所を水色の枠で囲ってしめしてみました。

1.「今週のニュースピックアップ」の中の1ページ

このページは、①7箇所、②4箇所、③なしとなります。

2.津田大介クロニクルの中の1ページ

このページは、①8箇所、②1箇所、③4箇所となります。

3.今週の原発情報クリッピングの1ページ

このページは、①7箇所、②7箇所、③5箇所となります。

4.奥の細道の1ページ

このページは、①9箇所、②10箇所、③1箇所となります。

●以上の4ページだけでみますと、

①英数字を1文字ずつ正立させると良い箇所:31箇所
②数字をペアで縦中横にすると良い箇所:22箇所
③英数字を文字列全体として横倒しすると良い箇所:10箇所

となります。

いままでに様々な縦組み書籍の文字の方向を調べて、このブログで結果を報告してきました。それと凡そ同じ傾向を示しています。

数字については横倒しすると良い箇所はほとんどなくほぼ正立が望ましくなります。特に縦中横にすると良い箇所が非常に頻繁に出てくるのが特徴です。

『津田大介の「メディアの現場」』は、URLが頻出します。この例でもURLが4箇所ありますが、それを除くと通常に書かれた日本語文章で英数字を横倒しすべき箇所は少ないことが分かります。

さて、いま、手作業で方向指定方針を示したのですが、これを自動的に判別して最適なマークアップをすることができるとメルマガの縦組みEPUB、縦組み書籍化が自動的に実現できることになります。

英数字がデフォルト正立であれば、このマークアップ数は半減しますが、プログラムで処理するなら作業負荷はどっちでもそれほど変わりません。