イメージ(img)のalt属性値が検索対象になるか? SVG内テキストが検索対象になるか?

EPUB3およびKindle(mobi)内のイメージ関連のテキストが検索の対象になるかどうかをざっとチェックしてみました。

調べましたのは次のテキストです。

①imgの代替テキスト(alt)属性値に指定した文字列
②SVGのテキスト要素に指定した文字列 (imgのsrcに指定したとき)
③SVGのテキスト要素に指定した文字列 SVGをスパインに登録したとき

EPUBリーダはiBooksとKindlePaperwhite(旧機種)です。

結果は次の通りです。

1.代替テキストは(alt)検索対象にならない。
2.SVGをimgのsrcに設定すると、ラスター画像と同等の扱いになり、text要素のテキストは検索対象にならない。また、文字列を指定して辞書引きの対象とすることもできない。
3.iBooksではSVGをスパインに登録したときテキストが検索対象となる。また、文字列を指定して辞書を引くことができる。KindlePaperwhiteでは、検索・辞書引きの対象とならない。

iBooks 3.1(iOS6) KindlePaperwhite
イメージ(img)のalt属性値 検索しない 検索しない
imgのsrcの値に設定したSVGファイル内のテキスト 検索しない 検索しない
スパインに指定したSVGファイル内のテキスト 検索する 検索しない

◎テストデータ
①EPUB3 EPUB3ファイル
(EPUBチェック:EPUBチェック結果

②Kindle Kindleファイル
(Kindleチェック:KindleGenの変換時メッセージ

SVGファイルはフォントを埋め込まないもの(横書き、縦書き)とフォントを埋め込んだもの(横書き、縦書き)を作成しました。

横書きで一部文字の表示位置がずれていたり、縦書きで文字の字形(グリフ)がおかしい箇所がありますが、このあたりはリーダ依存の場合もあります。この調査データはざっと作成したものですので、このあたりは正確になっていません。予めご了承ください。但し、EPUBチェックではエラーはありません。

縦組みにおける章・節・項番号、図表番号、箇条書き番号の付け方について珍しい例

縦組みで、章・節・項番号、図表番号、箇条書き番号などに、アラビア数字とラテンアルファベット(英数字)を使う時、章・節・項番号の区切り文字に何を使うかは悩ましい。

中点・半角中点を使うのが無難だが、全角(em)ダッシュ・半角(en)ダッシュを使う時も多い。章・節・項などの番号が漢字なら良いのだが、アラビア数字を使うと、アラビア数字の形と区切り文字の位置・形の関係でなんとなくバランスが悪く感じる。

番号付箇条書きで番号の後ろに区切り文字を付けるときはさらに悩ましい、と日ごろ思っていた。ところが、昨日次のような使い方を見つけた。

次の写真は『新版 大学生のためのレポート・論文術』(小笠原 喜康、講談社現代新書、2009年11月20日発行)の目次である。

201309171
図1 目次

縦組みの本で章・節・項番号をこのような区切り方をしている本は珍しい。

本書を読むと、章・節・項の区切り方について次のような説明がある。

20130917a
図2 章・節・項の番号の表記法(本文p.164)

本書の内容は「以下、すべてA4・横書きを前提に進める」(p.17)としており、横書きの論文の書き方に関するものである。上の図は横書き論文における章・節・項番号の付け方の説明を縦組みで行なっているわけだ。

そして、本書は横書きで書いた原稿を、忠実に縦組みにしているようだ。つまり、次の図の右のようにWordで書いた原稿を縦組みするために、アラビア数字とピリオドを全角形に変換してそのまま組版したのだろう。

201309172
図3 半角系から全角形への変換

著者は(横書きでは)「アルファベットや数字は、すべて半角にする」(p.26)としている。図2の説明は、もともと横書きで半角形で書かれた説明だろう。しかし、本書は、本文縦組みで説明するために、文字を全角形として表しているのである。「アルファベットや数字は、すべて半角とする」という規則と矛盾しているとも言える。

全角ピリオドを区切り文字に使うのは、原稿に忠実ではある。しかし、一方で、縦組みと横組みでは一部の文字の字形を変えるという組版の規則もある。本書でも縦書きアラビア数字中の小数点は中点であらわしている。

このほか、本書では、番号付き箇条書きの箇条番号(ラベル)をアラビア数字やラテンアルファベットの小文字を使っている箇所があるが、ラベルを同じように全角形にして、全角ピリオドを付加している。ラベルを漢字にすると多少見栄えが良いが、ラベルに全角形のアラビア数字やアルファベットを使って全角ピリオドを付けるとあまり体裁が良いとは感じない。これは慣れの問題かもしれないが。

本書の内容は横書きの論文に関するものであり、内容的にアルファベットやアラビア数字が多い。さらに記号類が頻発する。原稿も恐らく横書きで書かれている。書籍にするときに、かなり無理して縦組みにしているようだ。そのために書記方法が不統一になっている箇所も多々見受けられる。こういう体裁のあまり良くない本が学生さんの間で一般化するとあまり嬉しくない。

本書に限らず、学生向けの論文の書き方の本は多数ある。その多くは、内容からは横書きがふさわしいのに縦書きになっている。『理科系の作文技術』という有名な本は横書きになっているし、横書きでは売れないということもないだろう。無理に縦組みにするのはそろそろやめたらどうかと思うのだが。

コンテンツの構造化とは何か? 構造化の目的、手段は? Word文書のスタイル付けとマークアップの関係

自由奔放に記述された文書は構造化文書とは言わない。そうではなく、予め定めた一定の型にはめて記述した文書が構造化文書である。ここでは構造化文書とはなにか? 構造化の目的、構造化の手段について簡単に整理してみる。

1.構造とはなにか?

例えば、書籍は、表紙、前書き、目次、本文、後書き、奥付という大枠の構造を持つ。本文はさらに大見出し、中見出し、小見出しを必要に応じて繰り返すという構造をもつ。さらに本文の文章の中には、箇条書き、引用、表をもつという階層構造になっている。また、章や節、図表には番号をつける。注釈、参考文献は、参照元と参照先への対応関係をもつ。

これらはすべて書籍に関わる構造である。こうした構造は文脈・意味と強い関係をもつ。一般には、文脈を明らかにし、意味を捉えやすくするように構造化する。

2.印刷における構造の表現

印刷した書籍においては、表紙、前書き、目次、本文、後書き、奥付はそれぞれの体裁で表現される。見出し、段落の位置(上下・左右の余白の量など)や箇条書き、文字の修飾(強調、斜体、ゴシック体、文字の大きさ)などは文章の文脈や意味が明確になるような書式になる。たとえば、見出しの文字を本文よりも大きくしたり、前後に空き(行間)を広くとるのは見出しであることを分かりやすく示すためであるし、ある特定の段落の左余白を広く取った場合、それは、引用や注記など本文とは異なる段落であることを示すためなのである。注釈であれば、参照元には合印をつけ、参照先に注釈のテキストにも同じ印をつけて参照関係を表す。

3.意味の認識

人間が書籍を捲り、テキストを読む目的は意味を認識することである。テキストを読みながら、構造の認識の支援を得て、テキストの意味を、より容易に、正しく認識できるのである。

4.文書のコンピュータ処理と構造の表現

プログラムによるコンピュータ処理では文書の構造を取り扱うことが多い。構造の取り扱いの主な例は、構造の変換と可視化である。構造変換の例としては、オーサリング形式から配布用の形式への変換がある。オーサリング形式とは編集作業に最適化された形式である。例えばDITA(Darwin Informaton Typing Archtecture)はオーサリング形式である。配布形式とは読者の手元で可視化するのに向いた形式である。可視化には、スクリーンへの表示、紙への印刷、音声で読み上げなどを含む。現在の2大可視化ツールはPDFリーダとブラウザである。DITAでコンテンツを作成したとき、最後に配布形式であるPDFやHTMLなどに変換する。DITAではこれをパブリッシングという。

このようなコンピュータ処理では構造が必須である。しかし、コンピュータでは人間のようにテキストを読みながら構造を認識することができない。そこで、テキストの中に明示的に構造を表す印をつける必要がある。これがマークアップである。

5.XMLマークアップ方式

現代のマークアップ方式の代表はXMLである。XML方式では構造を要素や属性というマークアップで明示的にあらわす。

例えば、見出しは、人間にとっては本文と比べて大きな文字であることをキーにして認識する。一方、XMLでは見出しの範囲をマークアップすることで明示的にあらわす。見出しというマークアップした場合、文字が大きいこと・文字がゴシックであることなどの見出しを視覚的に区別するスタイル指定はマークアップの方で担う。見出しの文字列は、本文と同じテキストで表す。

そこで、マークアップをすることは狭義のコンテンツである見出し文字列と見出しに指定するレイアウトという視覚要因を分離することであるといっても良い。このような意味で、コンテンツとレイアウトを分離するという言い方をすることもできるだろう。

XML方式で文書をマークアップすることで文書をコンピュータで簡単に加工処理できるようになる。XMLを使うメリットは、さまざまな基盤ツールが提供されていることである。先ほどのDITAの場合は、DITA-OTというパブリッシング用のツールがオープンソースとして提供されている。こうした基盤ツールを自分で作らなくても済むというメリットは大きい。

6.XMLの作成

XMLでマークアップするのは、あくまでもコンピュータ処理のためである。つまりXMLにしても、人間にとってはうれしくない。こうしたことからXMLは一般の人には無縁である。このため専門家以外にはあまり好かれないのだが、これはやむを得ないだろう。

しかし、文書をXML化することで、メリットが生まれる場合もあり、あるいはXML化しないとどうしようもない場合がある。どういう場合にメリットがあるかを考えてXML導入しないと無駄になる。また、XML化のコストはかなり大きい。そこで、これをどうやって簡易的に実現するかを考えることも必要である。

7.Microsoft Wordのスタイルを使う方法

Microsoft Wordにはスタイル機能がある。見出しというスタイルを定義しておき、ある文字列に見出しスタイルを適用すると、その適用された文字列の文字がいっせいに大きなゴシック体になる、というものである。

こうしてみるとMicrosoft Wordのスタイル機能は、XMLにおけるマークアップに近い機能であることが分かる。このようなことでスタイル機能を使って記述したMicrosoft WordはXMLで構造化した文書に比較的容易に変換することができる。

一方、同じMicrosoft Wordを使って、スタイル機能を使わずに、見出し文字列をその都度、文字修飾(フォント機能)と段落修飾(インデント、改行幅)をつかって外見を指定して作成した文書を作ることができる。このような作りかたをした文書はXMLに変換しにくい。XML化するときに、すべての見出しをいっせいに特定のマークアップに変換しにくいのである。それは、ときどき、修飾を忘れるなどの例外があるからである。

CAS-UBのWord変換は、スタイル機能を推奨している。Wordが標準でサポートしている機能であり、スタイル付けは比較的簡単だからである。

しかし、Microsoft Wordで作成した文書をXML化する方法として、Wordのスタイル機能を使う以外にもまだ他に方法がある。例えば、大見出しにするテキストには、特定の色を付けるなどが考えられるだろう。これをCAS-UBのWord変換で実現している事例もある。

9月12日【電子書籍 売れるために必要な4つのポイント】セミナー終了しました

9月12日のエクスイズム主催セミナー【電子書籍 売れるために必要な4つのポイント】無事終了しました。

舛本哲郎氏の売れるために必要な4つのポイントの話が主役でした。舛本さんは、セミナーの話を中心に電子書籍を制作中で、完成次第参加者に特典として提供いただけるそうです。楽しみですね。

アンテナハウスでは、PDFとEPUBの両方を作って売るということについてを中心に、かなり本音のお話をさせていただきました。

https://fbcdn-sphotos-f-a.akamaihd.net/hphotos-ak-ash3/s403x403/1240159_424390714347958_966827789_n.jpg

最後の質疑応答はいつもよりもかなり熱心なご質問をいただきました。本音が良かった?

次から、アンテナハウスのプレゼン資料をご覧いただくことができます。
配布資料(アンテナハウス)

さて、今月はあと来週のJEPAの新製品案内が残っています。

Frankfurt Book Fair 出展情報

10月9日~13日フランクフルトブックフェアに出展します。ブース番号はHall 4.2, #J95です。ご来場の節はどうぞ、お立ち寄りください。

Antenna House is pleased to announce our presence at the Frankfurt Book Fair October 9 -13. Be sure to stop by and visit us in Hall 4.2, Stand #J95 to see what’s new at Antenna House and meet our knowledgeable staff.

1.AH Formatter V6.1
This year at the Book Fair we will be showing AH Formatter V6.1. Our newly enhanced formatting engine can now support Indic Languages and embedding multimedia, such as video, in PDFs.

2.自動リグレッション試験システム
Have a first look at our Automated Visual Regression Testing System. This powerful new product can test publications, graphics, business documents and virtually any paged PDF output from any software. AHRTS catches 100% of the differences in page formatting!

3.CAS-UB
We will also be introducing CAS-UB, our new Cloud Authoring Service for the Universal Book. It features editing, styling, collaborating, and content management tools that all professionals need to create EPUB or print publications, all in the cloud! See it first exclusively in Frankfurt!

9月18日第4回JEPA製品紹介セミナー~電子出版制作技術~ に参加します。

アンテナハウスは、9月18日に日本電子出版協会が開催する第4回JEPA製品紹介セミナーにて、CAS-UBの製品紹介に参加します。

第4回JEPA製品紹介セミナー~電子出版制作技術~のご案内とお申し込み

プレゼンテーションの時間は20分で少し短いのですが、CAS-UBの新しい機能を中心に紹介する予定です。また、16時~17時はブースで製品紹介を致します。

関心をお持ちのかたは、ぜひ、お立ち寄りください。

なお、当日は、お名刺と交換で次のブログで紹介しました消費税本(プリント版)を贈呈させていただきます。

『簡単解説20ヶ条 消費税率アップ』プリント版できました。本日より、電子出版EXPOで配布します。

セミナー参加者に特別進呈 9月12日開催【電子書籍 売れるために必要な4つのポイント】

■ 【電子書籍 売れるために必要な4つのポイント】 主催;株式会社エクスイズム
~~ デジタルファーストの時代 売れる本の書き方教えます ~~

舛本哲郎氏による「売れる本の書き方教えます」セミナーは3月4日、6月11日の開催に続くシリーズ3回目の開催が決まりました。

実際にKDPで編集・制作しKindleからの配信をはじめてから実際的なアドバイスや問題提起が増えています。
もっと具体的にという要望にお応えしてノウハウの一部をお伝えできれば良いと主催者も考えております。

●舛本哲郎氏からのプレゼント
舛本氏から → (’jjj’) 今回は特典をご用意しました!
セミナーご参加の方に、電子書籍「売れる電子書籍 vol.2」(10月刊行予定)
を差し上げます(Kindle形式、EPUB形式)。
お申し込みのメールアドレス宛に刊行しだいご案内さしあげます。

●アンテナハウスもCAS-UBの紹介を致します。また、CAS電子出版より参加者にプレゼントがございます。
ShortMag ! 6月新刊
『簡単解説20ヶ条 消費税アップ ―その原則・特例と経過措置―』
CAS-UB電子出版からの印刷版(66ページ)を贈呈します。

●開催日時
2013年9月12日(木) 18時20分~20時30分(21時終了)
受講料3,150円(税込)

詳細情報(エクスイズムのWebページへジャンプ)

9月4日CAS-UB V2.2ご案内セミナー終了しました。資料を公開しています。

昨日(9月4日)ソフトウェア・パートナーと共催で、東京赤坂にて「電子書籍EPUBとPDFを簡単に制作・配信する方法セミナー」は無事終了致しました。セミナーにご参加いただきました皆様ありがとうございました。

次のWebページにCAS-UB関連の資料をアップしました。どなたでもダウンロードしていただくことができます。
新CAS-UBをご案内するセミナー終了。資料のダウンロードはこちら。

ご活用いただければと存じます。