『PDFインフラストラクチャ解説』 0.55版を公開。無料配布の最終版となります。

2005年10月にブログ「PDF千夜一夜」を開始してから既に満10年を経過しました。

「PDF千夜一夜」はブログを1000日間連続で書き続けるというものでしたが、大勢の方にご愛読いただきました。

PDF千夜一夜 全記事一覧

その記事を中心に、さらに新しい話題を追加し、編集・執筆してきました『PDFインフラストラクチャ解説』。本書は、CAS-UBによるワンソース・マルチユースのユースケースとして、PDF、EPUBの形式で同時に作成するほか、随時プリントオンデマンドで紙の本をサンプルとしても作ってきました。

現在、0.55版を公開しています。

『PDFインフラストラクチャ解説』0.55版(EPUB,PDF)無料ダウンロード ~12月初旬まで
2016年1月に本書発売となり、無償配布を終了させていただきました。(『PDFインフラストラクチャ解説』POD版とKDP版が揃い踏みとなりました

PDF-144px

12月には1.0版として発売する予定です。

今般、弊社では、アマゾン、三省堂書店、ウェブの書斎、honto.jp、楽天ブックスなどのストアから、CAS-UBで制作した本をPOD方式で販売するサービスを始めることになりました。

お知らせ: CAS-UBで作ったPDFを、アマゾンなどから紙の本として出版するサービスを始めます。

12月には『PDFインフラストラクチャ解説』をそのルートで販売開始します。本書は、現在、内容の最終チェックと索引整備の作業に入っています。12月にストアで販売開始後は、勝手ながらPDFとEPUB版の無償ダウンロードは終了させていただきます。いまが、最後のチャンスです。

微力ながら、満10年かけて作りました。手に入らなくなる前にPDFとEPUBのダウンロードをお急ぎください。

Unicodeの漢字統合と絵文字(草稿)

1.Unicodeとは (草稿)
の続きです。

漢字の統合

漢字の共通コードを作る試みはISO/IEC 10646にもあったが、Unicodeは漢字統合の提案をISO/IEC 10646に持ち込み、中国・日本・韓国の共同作業部会(CJK-JRG)において作業が行われた。この作業の成果として1992年に最初のCJK漢字統合(Unified Repertoire and Ordering (URO))ができあがった。UROは中国・日本・韓国の地域別標準文字コード表を出典とするが、元になる文字コード表で別のコードになっていれば統合しないという出典分離規則がある。URO漢字はUnicode V1.0.1で20,902文字が規定され、その後、48文字が追加されている。また、出典文字コードとの双方向対応や出典外の主要文字として互換漢字が302文字導入された。その後、互換漢字は170文字追加されている。UROと互換漢字は(472文字)のみがBMPに収容されている。

URO以外のCJK統合漢字は第2面に追加されており、1993年10月にCJK-JRGはIRG(Ideographic Rapporteur Group)に変更され、さらに多くの出典から漢字を追加する作業が行われた。IRGが追加したCJK統合漢字ブロックとしては漢字拡張A 6,582文字(Unicode 3.0で追加)、漢字拡張 B 42,711文字(同3.1で追加)、漢字拡張 C 4,149文字(同5.0で追加)、漢字拡張 D 222文字(同6.0で追加)、漢字拡張 E 5,765文字(同8.0で追加)、互換漢字補助542文字がある。漢字拡張B以降は第2面に追加されている。

Unicode 5.1.0からコードポイントと出典を対応つけるデータベース(UAX#38)が付属仕様として提供されている。

絵文字

2009年のUnicode 5.2で、ARIB(Association of Radio Industries and Businesses)が定義する114の絵文字がBMPに追加された。さらにUnicode 6.0で608の絵文字が第1面の記号エリア(U+1D000…U+1E7FF)に追加され、主要な日本の携帯端末用の絵文字が揃った。その後、Unicode7.0までに多数の絵文字が追加され、世界中のメディアの注目を集めた。もともと様々な記号類(天気記号など)はUnicodeでいくつかのブロックに定義されているので、絵文字の登録自体は不自然ではない。しかし、絵文字に関連して人種差別にならないように肌の色調を変えるための符号(U+1F3FB…U+1F3FF)が導入された。また、マルチカラー、アニメーションなどの可視化方法、デザインなどの複雑な問題がある。こうした利用方法に関してはガイドライン(UTR#51)が作成されている。

Unicode バージョン別の登録文字数の推移、追加文字数と変更点

V1.0.1 V2.0 V3.0 V4.0 V5.0 V6.0 V7.0 V8.0
アルファベット・記号 4,728 6,491 10,210 13,973 16,486 22,454 26,013 27,958
漢字 漢字 20,902 20,902 20,902 20,902 20,902 20,902 20,902 20,902
漢字(URO拡張) 22 38 39 48
漢字拡張A 6,582 6,582 6,582 6,582 6,582 6,582
漢字拡張B 42,711 42,711 42,711 42,711 42,711
漢字拡張C 4,149 4,149 4,149
漢字拡張D 222 222 222
漢字拡張E 5,762
互換漢字 302 302 302 903 1,009 1,012 1,014 1,014
漢字小計 21,204 21,204 27,786 71,098 71,226 75,616 75,619 81,390
ハングル音節 2,350 11,172 11,172 11,172 11,172 11,172 11,172 11,172
図形文字 28,282 38,867 49,168 96,243 98,884 109,242 112,804 120,520
レイアウト制御文字 12 18 26 139 140 142 152 152
合計 28,294 38,885 49,194 96,382 99,024 109,384 112,956 120,672

収録文字数はUnicode Consortium.“The Unicode Standard, Version 8.0 – Core Specification.”(Table D-2, p. 891)による。

バージョン別変更点

バージョン番号 主な変更点
1991年 Unicode 1.0
1992年 Unicode 1.0.1 漢字(URO)20,902文字と互換漢字302文字を新設
1993年 Unicode 1.1 アルファベット・記号1,562文字追加、ハングル音節4,306追加、レイアウト制御文字6追加、UTR#4
1996年 Unicode 2.0 アルファベット・記号201文字追加(チベット文字)、ハングル音節4,516追加、サロゲート・コードポイントを新設
1998年 Unicode 2.1 アルファベット・記号2文字追加、UTR#8
2000年 Unicode 3.0 アルファベット・記号3,717文字追加(エチオピア文字、)、漢字拡張A 6,582文字新設、レイアウト制御文字8追加
2001年 Unicode 3.1 アルファベット・記号1,588文字追加、漢字拡張B 42,711文字新設、互換漢字542文字追加、レイアウト制御文字105追加、UAX#27
2002年 Unicode 3.2 アルファベット・記号955文字追加、互換漢字59文字追加、レイアウト制御文字2追加、UAX#28
2003年 Unicode 4.0 アルファベット・記号1,220文字追加、レイアウト制御文字6追加
2005年 Unicode 4.1 アルファベット・記号1,144文字追加、漢字(URO)拡張22文字新設、互換漢字106文字追加、レイアウト制御文字1追加
2006年 Unicode 5.0 アルファベット・記号1,369文字追加
2008年 Unicode 5.1 アルファベット・記号1,615文字追加、漢字(URO)拡張8文字追加、レイアウト制御文字1追加
2009年 Unicode 5.2 アルファベット・記号2,487文字追加、漢字(URO)拡張8文字追加、漢字拡張C 4,149文字新設、互換漢字3文字追加、レイアウト制御文字1追加
2010年 Unicode 6.0 1,000を超える記号の追加。その主なものは絵文字である。
アルファベット・記号1,866文字追加、漢字拡張D 222文字新設
2012年 Unicode 6.1 200 を超える絵文字用の標準異形を追加。
アルファベット・記号730文字、漢字(URO)拡張1文字追加、互換漢字2文字追加、レイアウト制御文字1文字削除
2012年 Unicode 6.2 アルファベット・記号1文字追加
2013年 Unicode 6.3 アルファベット・記号1文字削除、レイアウト制御文字6追加
2014年 Unicode 7.0 23の新しいスクリプトが追加された。
アルファベット・記号2,829文字追加、レイアウト制御文字5追加
2015年 Unicode 8.0 Sutton Sign Writing 672文字、アナトリア・ヒエログラフ583(紀元前100-200)、初期王朝の楔形文字196(紀元前2900-2335年)、古ハンガリア108文字(13世紀後半)など6つの新しいスクリプトが追加された。
アルファベット・記号1,945文字追加、漢字(URO)拡張9文字追加、拡張漢字E 5,762文字追加

Unicodeとは(草稿)

JEPAサイトで完成版公開
Unicode

Unicodeは、Unicodeコンソーシアムという業界団体が定める、地球上の全ての文字を網羅する符号化文字集合(文字コード)である。Unicodeが普及する前は地域・国別に標準化された文字コードが使われていた。地域別に文字コードが異なるとコンピュータ・ソフトウェアのローカライズで、基本的なテキスト処理を地域毎に変更しなければならない。この問題を解消するためプログラムの文字処理用にUnicodeが開発されたが、インターネットの普及に伴い、HTMLやXMLのテキスト用文字コードとしても使われるようになり、現在は最もポピュラーな文字コードになった。

Unicodeの歴史

ゼロックスはStarの日本版J-Star、アップルはKanji Talk(Macintoshの日本語環境)を作る過程で、日本語化の問題に直面した。こんなことから両社でUnicodeのアイデアについて意見の交換があった。1988年4月に初めてアップルがUnicodeテキストのプロトタイプを出し、TrueTypeでUnicodeをサポートすることを決めた。また、1988年7月にアップルはResearch Libraries Groupから中国語、日本語、韓国語(CJK)の文字データベースを購入し、CJK漢字の統一化(Unification)をはじめた。その後、Sun、IBM、マイクロソフトなどの米国メーカーの賛同を得て、大きな動きになった。1991年にUnicode1.0仕様書出版、1992年には第2巻が追加されUnicode1.0.1となった。

UnicodeとISO(International Organization for Standardization)標準の関係

UnicodeはISO/IEC 10646という文字コード規格と同期をとっている。最新のUnicodeV8.0は、ISO/IEC 10646:2014, Information Technology—Universal Coded Character Set (UCS)(Universal Character Set (UCS)ともいう)とコード単位で完全互換である。

ISO/IEC 10646との相違点は、Unicodeは実装のための様々な機能文字、文字データ、テキスト処理アルゴリズムなどを定めていることである。仕様書本体にはスクリプト別のテキスト処理方法を定めており、さらに文字の特性データベース(Unicode Character Database)などのデータを提供している。付録として提供されるUnicode Standard Annex(UAX)は仕様の一部である。重要なものにアラビア文字やヘブライ文字をラテン文字などと混植するための双方向処理方法(UAX#9)、改行位置の決定特性(UAX#14)、正規形(UAX#15)などがある。他に、Unicode Technical Standard (UTS)と、Unicode Technical Report(UTR)がある。UTSはUnicodeとは別の独立した仕様であり、UTRは参考情報である。

文字の割り当てと番号付け

Unicodeの文字番号をコードポイントと言い、番号の範囲をコードスペースと言う。コードスペースは0から10FFFF(16進表記、以下、コードポイントは16進表記)で、1,114,112個のコードポイントを収容可能である。コードスペースは便宜上64Kずつのサイズの面に分けており、主な面には次のものがある。

(ア)基本多言語面(BMP):0000~FFFFまで。通常使う文字の大部分が収容される
(イ)第1面または補助多言語面(Supplementary Multilingual Plane):10000~1FFFFまで。Lenear B(線状文字B)など歴史的な文字、音楽表記用の文字、数学表記用の文字(記号)のような特殊用途の文字用の面
(ウ)第2面または補助表意文字面(Supplementary Ideographic Plane):20000~2FFFFまで。BMP面に入りきらなかったCJK文字(漢字)を収容する

スクリプト主義

Unicodeはグリフではなく抽象的な文字に対してコードポイントを与える。このときスクリプトが異なれば形が似た文字であっても別のコードポイントを与えるが、スクリプトが同じであれば言語が異なってもコードポイントを一つに統合している。例えば、ラテン文字の“o”(U+006F)、ギリシャ文字の“ο”(U+03BF:Omicron)、キリル文字の“о”(U+043E)は、スクリプトが異なるので同じ字形に関わらず別のコードポイントが与えられている。日本語はひらがな、カタカナ、漢字、ラテンアルファベットを用いて表記するが、それぞれ別のスクリプトである。漢字は日本語、中国語(大陸、台湾、香港、シンガポールなどで方言がある)、韓国語(昔)などの表記に使われるが、言語の相違を捨象して漢字というスクリプト内で統合する。但し、当初の統合化作業では元になる主な地域別文字集合で別の文字コードになっていれば統合はしなかった(1992年以降はこのルールは適用されていない)。

収録文字数

V1.0.1で漢字が収録された。このときの文字数は図形文字とレイアウト制御文字を含めて、28,294文字であった。その後、精力的な文字の追加が行われて、2015年公開のV8では同120,672文字となっている。そのうち、アルファベット・記号が27,958、漢字81,390、ハングル音節11,172、レイアウト制御文字152である。レイアウト制御文字は、改行などの基本的文字、左から右へ書く文字と右から左へ書く文字の混在のために使う方向制御文字などが分類される。

※Unicodeではスクリプトが中核概念であるにも関わらず、スクリプトについての厳密な定義がなかった。現在、UAX #24, Unicode Script Propertyの改訂版(草稿)でスクリプトについて定義しようとしている。

2.Unicode バージョン別の登録文字数の推移、追加文字数と変更点
3.Unicodeの漢字統合と絵文字(草稿)

お知らせ: CAS-UBで作ったPDFを、アマゾンなどから紙の本として出版するサービスを始めます。

アンテナハウスは、近く、CAS-UBで制作したPDF本をアマゾンなどからプリント・オンデマンド(POD)方式で紙の本として出版・販売するサービスを始めます。

本を事前に印刷して在庫を持つ負担がありません。著者に負担していただく出版・販売のための初期コストはわずか3,888円(税込み)のみです。印刷した在庫の負担はなく、売れた場合は売上に応じた印税を手にしていただけます。

概要

出版可能な書籍

CAS-UBを使用して本文PDFを制作した本

販売できるストア

アマゾン、三省堂書店、ウェブの書斎、honto.jp、楽天ブックス

本の形態

並製本、本文はモノクロ、本文24ページ~746ページ、判型は新書判~A4判

カラーについての詳細はしばらくお待ちください。

出版の条件

出版元

アンテナハウスCAS電子出版

出版条件

著者とアンテナハウス間で一点毎に非独占の出版契約を締結します。その際に内容を確認させていただき、公序良俗に反すると判断した本は出版をお断りします。また、著者には第三者の著作権を侵害していないことに関して責任を持っていただきます。内容について、原則としてそれ以外の条件はございません。

奧付

POD用PDF専用の奧付が必要です。アンテナハウスが管理するISBN番号と出版元名を記載します。

著者に用意していただくもの

本文はCAS-UBの出版物としてご用意ください。
表紙はPDF形式をご自分でご用意ください。表紙はカラーも使えます。ご要望に応じてアンテナハウスで表紙制作を承ります。
書誌情報は著者がEXCEL形式でご用意ください。
詳細な項目は出版契約時にお知らせします。

著者に負担していただく一時費用

初回出版契約締結時

3,600円+消費税(税込み:3,888円)

同一書籍2回目以降

(出版物の改訂などでPDFまたは書誌を差し替えるとき)毎回2,600円+消費税(税込み:2,808円)

定価・売上・収入

一部売れる毎に本をPODで印刷・製本する費用が発生します。
・POD費用=本文ページ数×2.5円+180円 (税別)

ストアや取次のコストは38%です。これを引いた定価の62%からPOD費用が差し引かれます。このため収入額は次になります。

・一部あたり収入額=定価×62%-POD費用

販売定価は一部あたりの収入額が赤字にならない範囲で自由に設定していただけます。
但し、上限を制限させていただく場合があります。

一部あたり収入額が赤字にならないためには次の条件が必要です。

定価≧POD費用÷0.62=(ページ数×2.5円+180円)÷0.62(税別)

例)本文200ページのとき、定価は1,097円(税別)以上としなければなりません。

総収入

一部あたり収入額に販売部数を掛けた数字が総収入となります。
総収入の累積額が1,500円(税別)を超えた場合、著者に印税をお支払いします。

収入がないように定価を設定しても問題ございません。その場合、印税の支払いはなく、一時費用以外の費用はかかりません。

著者へのお支払い

以下は、総収入があるとき該当します。
著者への印税のお支払い頻度を次のいずれかでお選びいただきます。
① 年1回(毎年11月末に締める)
② 年2回(5月末と11月末に締める)
③ 年4回(2月末、5月末、8月末、11月末の4回締める)

支払の有無判定

締め日の時点で総収入の累積未払い残高が1,500円(税別)を超えたときに支払います。(未払い残高はゼロとなります)。
未払金は繰り越します。各締め日に累積残高が1,500円(税別)に達しなかったとき、未払金は次の締め日に繰り越します。

支払い手数料と源泉税

支払い時には支払い手数料として支払い1回毎に1,000円(税別)を累積未払い残高から控除させていただきます。

支払額=累積未払い残高 ― 支払い手数料(1,000円) (税別)

支払額より源泉徴収(10.21%)を致します。銀行振り込み手数料はアンテナハウスの負担となります。源泉徴収分については税金として納付し、毎年末に年間の支払い報告書を発行します。

実際の振込み額

実際の振込額には消費税が加算されますので次の計算になります。

振込み額=支払額(税別)-支払額(税別)の10.21%+支払額にかかる消費税 

計算例

本文200頁、定価2,000円(税別)の本を10部販売したとき著者への振込額は、4,498円となり印税22.5%に相当します(印税率は定価や販売部数により変わります)。

一部あたりPOD費用(税別)=200×2.5円+180円=680円
一部当たり収入額(税別)=2,000円×62%-680円=1,240円-680円=560円
累積未払い残高(税別)=560円×10部=5,600円

支払手数料(税別):1,000円
課税対象額(税別):5,600円-1,000円=4,600円
源泉税:4,600円×10.21%=470円(減算)
消費税:4,600円×8%=368円(加算)
著者への振込金額:4,600円-470円+368円=4,498円

振込みにあたって

・初回支払前に銀行口座とお名前(本名)、ご住所の登録が必要です。
・年間支払額が5万円を超える場合、法定調書を税務署に提出するためマイナンバーをお知らせいただく必要があります。

電子書籍は

・POD版出版契約は非独占ですので、電子書籍は著者ご自身がKDPなどのセルフ出版サービスをご利用されることもできます。
・KDP登録が面倒とお考えの方は、アンテナハウスで登録代行(有償)致します。
・ご希望により「アンテナハウスCAS電子出版」としてKDPにより販売もできます。

お問い合わせ先

さらに詳しい情報につきましては、下記までお問い合わせください。
アンテナハウス株式会社:CAS電子出版担当
eメール:cas-info@antenna.co.jp
電話:03-5829-9021

その他:源泉税、消費税、マイナンバー等の扱いは法令に基づくものですので、法令が変更になったときは取り扱いが変更になります。予めご了承ください。
参考:プリントオンデマンド(PODとは)

◎改訂内容
2015年11月27日 取次の手数料が2%下がり、38%となりましたので数字を変更しました。

ナビゲーションとは(草稿)

JEPAサイトで完成版公開
ナビゲーション

ナビゲーションは航法、航海術を表す言葉であり、船舶や航空機などを目的地まで導くことやその役割を意味する。近年は、インターネットのWeb、電子書籍などのデジタル出版分野でも目的とする情報にたどりつくことやそのための手段のことをナビゲーションというようになった。ちなみにHTML5でナビゲーション用のリンクをグループ化する<nav>タグが定義された。ここでは、デジタル出版物を中心としてナビゲーションについて検討する。

紙の出版物

紙の本ではナビゲーションという言葉は使わない。しかし、機能としてのナビゲーション、すなわち目的の情報に導く手段はいろいろある。紙の本で目的地を示す情報には、見出し番号と見出し、図表番号とキャプション、ノンブル(ページ番号)、柱などを用意する。目的地に導く方法として、ぱらぱらとページをめくって探す、目次から辿る、索引や図表一覧から辿るなどが使われる。さらに、ユーザーのカスタム情報として栞紐(しおりひも)を使う 、紙のしおりを挟む、付箋を貼るなどの手段を使うことがある。

PDF

PDFは紙の本をデジタル化したものなので、目的地を示す情報は紙で用意されている項目と同じである。目的地に導く方法は、PDFに用意するものとしては、アウトラインツリー(目的地毎にアウトライン項目を用意し、アウトライン項目をツリー構造で示したもので、Acrobatでは、アウトラインツリーを「しおり」表現している)、サムネイルなどがPDF独自の方法である。アウトライン項目、目次の見出し、索引の項目から目的地へのリンクを設定できる。

紙より便利な点は、リンクのテキストをクリックすると目的地にハイパージャンプできることである。PDFリーダーは、ページを捲る方法として「進む」、「戻る」、「先頭」、「最後」を用意しているのは普通である。しかし、紙のページをぱらぱらめくるのに相当する機能が用意されているPDFリーダーはあまり見かけない。読んでいるPDFに対してユーザーが自分専用の目的地のしるしをつけるためのカスタム手段は、PDFリーダーがサポートすべき項目であるが、こうした機能をもつPDFリーダーは見かけない。

EPUB3

EPUB3では目的地を示す情報として読者に見えるのは、見出し番号と見出し、図表番号とキャプション位である。EPUB3では柱で目的地を示すことができないし、特にリフロー型EPUBではEPUBリーダーが表示するページ番号は目的地を示すために使えない。ハイパーリンクの行先アドレスは、目的地を示すが可視化されない。

EPUB3では、目的地に導く方法として、ナビゲーション・ファイル(<nav>要素にepub:type=”toc” を指定したファイル)を必ず用意しなければならない。しかしナビゲーション・ファイルに記載する情報は標準化されていない。日本電子書籍出版社協会の電書協 EPUB 3 制作ガイドでは「版元から特に指示がないかぎり、カバーページ、目次ページ、奥付ページへのリンクのみとする」とされているなど、あまり重視されていない。むしろ、ナビゲーション・ファイルとは、別に、本文とは同様なレイアウトを設定する目次ファイルを用意することが多い。索引や図表一覧などは用意することができるが、市販の電子書籍ではあまり使われていない。

紙より便利な点は、リンクのテキストをクリックすると目的地にハイパージャンプできることである。EPUBリーダーは、ページを捲る方法として「進む」、「戻る」、「先頭」、「最後」を用意しているのは普通である。また、スライダーでページ素早く進むインターフェイスを用意しているEPUBリーダーもある。読んでいるEPUBでユーザーが自分専用の目的地のしるしをつけるためのカスタム手段をサポートするEPUBリーダーも珍しくない。しかし、全体としてEPUBのナビゲーションは紙と比べて機能が低い。