CAS-UBのPDFインポート機能廃止の件:ご意見をお寄せください。

現在、CAS-UBのV2.4を開発中です。

V2.4は、英語版を中心に、より現実に流通されている本に近い形式の書籍用PDFを制作する機能を強化しています。

大きな改善点は、記事の種類の追加、PDFのビルドインスタイルシートの強化になります。

また、できるだけ操作を判りやすくするため画面を簡単にし、ヒント機能なども追加します。

Wordインポート機能は、大きな記事をWordインポートで分割した場合、PDFやEPUB制作時に結合するように改良する予定です。

(CAS-UBは、ブラウザのフォームで記事を編集するため、ブラウザのフォームで編集できるテキストの長さの制限を受けます。このため長い記事を分割して編集しなければなりません。)

一方、あまり有効でない機能を廃止します。その一つとして、PDFインポート機能を廃止することを検討しております。

PDFをリフロー型のEPUBに変換するには、CAS-UBで直接PDFをインポートするよりも、
1)PDFをWordに変換
2)Word上で形を整える
3)CAS-UBでWordからEPUBにする
というステップの方が望ましいと考えられます。

PDFをWordに変換する手っ取り早い方法としては、弊社の『瞬簡PDF変換』のようなデスクトップ製品や『瞬簡PDF for Cloud』のようなサービスがあります。


『瞬簡PDF変換』

『瞬簡PDF for Cloud』
『瞬簡PDF for Cloud』(価格)

このような事情でCAS-UBにPDFインポート機能を維持する必要性は小さいと考えます。そこで、V2.4ではCAS-UBのPDFインポート機能を廃止したいと考えております。

もし、継続を望まれる方がおられましたら、ご意見をいただければと存じます。

本の形を考える―段落のインデント(CAS-UBの場合どうするか(草稿))

CAS-UBでユーザーが段落・パラグラフ(p要素)を配置できる要素について検討してみます。以下は、CAS-UB実装メモであり検討中のものです。

注意)CAS-UBは内部的にはHTMLを主にクラス属性を使って拡張した形式でデータを処理しています。但し、コンテンツを記述するのは簡易マークアップ記法であるCAS記法を用いているため、HTMLで使うことのできるすべての要素の組み合わせを記述することができません。

〇章・節・項など(div class=”level2″~div class=”level9″)の内容
pはh1~h6タグの兄弟となる。

〇引用(blockquote)
pはblockquoteの子供である。
引用の中に見出し(h1~h6)を置いたとき、pはdivの子供でh1~h6の兄弟となる。

1.短い引用は段落の中に取り込む。MLAは散文なら4行以内は取り込む。([1]p.124)
2.散文の長い引用。([1]p.125)
2.1 一段落またはその一部だけを引用するとき、一行目を他の行よりもインデントしない。
2.2 二つ以上の段落を引用する必要があるとき、各段落の一行目を1/4インチだけ追加でインデントする。もし、オリジナルが最初の段落を深くインデントしてないなら、最初の段落をインデントしないで2段落以降のみインデントする。

〇表のセル(td, th)
HTMLのモデルではliの中にpを置くことができるがCAS記法では記述できない。
但し、HTMLの表を直接埋め込んだ場合には、表のセルはパラグラフを複数含むことができる。

〇箇条書きの説明(li)
HTMLのモデルではliの中にpを置くことができるがCAS記法では記述できない。liの内容が二つ以上のパラグラフをもつことはない。

〇用語定義リストの説明(dt)
HTMLのモデルではliの中にpを置くことができるがCAS記法では記述できない。liの内容が二つ以上のパラグラフをもつことはない。

〇特殊なブロック
CAS記法では、次の5種類のクラス属性をもつdiv(ブロック)を特殊化したブロックと言い、それぞれにスタイルをあらかじめ指定しています。
1. サマリー(div class=”sum”)
2. コラム(div class=”col”)
3. 注釈(div class=”ann”)
4. 画像(div class=”fig”)
5. 表(div class=”tbl”)

1~5でpはdivの子供である。
キャプションがあるとき、pは、div class=caption の兄弟となる。

〇検討事項
CAS記法ではクラス属性のないdivの中にパラグラフを記述できます。このときpはdivの子供となります。このdivの最初の子供であるpを先頭の段落とするべきかどうか?

その他例えば、パラグラフとパラグラフの間に、別のブロック要素が挿入されたときブロック要素の後に続くpは一つ目とするべきか、それとも二つ目(以降)とするべきか? →継続する段落はpにcont属性を付ける。

段落と段落の間に空きがあったとき。ポーズの空きがあるとき、空きの後の段落はどうするか?

〇参考資料
“Thinking with Type”[2]に、段落のレイアウト・スタイルの様々な見本が掲載されている。

[1] MLA Style Manual and Guide to Scholary Publishing
[2] http://www.thinkingwithtype.com/contents/text/#Marking_Paragraphs

本の形を考える―箇条書きのスタイル(草稿)

英語の本の箇条書き(リスト)のスタイルについて調べてみました。まだ、調査は不十分で規則として言えるような段階ではないですが。とりあえず整理してみます。この文章では、箇条書きとリストは同じ意味で用いています。

最初にルールブックの記述を見ます。

1.Hart’s rule[1]
・箇条書きにはディスプレイとインラインがある(p.286)

ディスプレイ・リストには3つのタイプがある(p.287)
・番号や文字で印をつける
・ビュレットで印をつける
・マーカーのないリスト

番号・文字・ビュレット(p.288)
・ローマン、イタリック、ポイント有無はデザインによる
・Oxford Style:1、(a)、(i)の順だが、1、(i)、(a)でも良い
・階層が深い時は、大文字のアルファベット、大文字のローマ数字を使っても良い
・項目の階層が無い時はビュレットのようなタイポロジカル記号を使う。ビュレットと項目テキストの間はenスペース。

番号もビュレットもない単純なリストでも良い

2.Chicago Style[2]

テキストの中に入るリストと縦に配置するリストがある。リストを縦に配置するのは次のとき。(6.124)
・タイポグラフィックに目立つようにする
・長い
・階層がある

項目を番号付ける時、番号にはピリオドを付けて、テキストは大文字で開始する。項目が2行以上になるときはハンギング・インデントとする。番号付きリストでは先頭は1行目のテキスト開始位置に揃える。インデントする代わりに項目間を空けても良い。(6.127)

項目が長い時は、番号付き段落としても良い。(6.128)

番号付きリストをさらに階層化するときは、番号と文字の両方を使ってよい。数字は最下位で桁ぞろえする。括弧で括る文字はローマンでもイタリックでも良い。階層が深い時の例:

Ⅰ.>A.>1.>a)>(1)>(a)>i)

(6.130)

3.実際の本におけるスタイル

実際の英語の本(4冊)で縦に配置する箇条書き(ディスプレイ)スタイルをチェックしてみました。まだ、確認したケースが少なく、基本的にデザイン依存ですので一般的な要件とは断言できませんが、次のようになっていました。

(1) ラベルのない箇条書き

実際の本では、番号や記号のラベルをつけないで項目を並べる箇条書きは、事例を挙げるまでもなくかなり頻繁にでてきます。その特徴は:
・ブロック全体の左余白は文脈依存
・ブロックの前・後の空きは文脈依存
・1項目の長さが2行になるとき、2行目以降は字下げする(ハングング・インデント)
・項目が短い時、2段組みされることがある
・項目の内容をいくつかのフィールドに分けることがあり、フィールド先頭をタブで位置揃えできると良い

(2) 番号なし箇条書き

番号なし箇条書きは、各項目の先頭にビュレットを置いて項目を目立つようにするものであり、ビジネス本などでは良く見かけます。その特徴は:
・ブロック全体の左余白は文脈依存である。しかし、敢えて言えばビュレットの位置をブロックのパラグラフ左開始位置に置くのが多いようだ。
・ブロックの前・後の空きは文脈依存である。
・項目と項目の間を項目内の改行幅よりも広くすることがある
・ビュレットと項目のテキスト間には若干の空きがある。項目が長い時、2行目は1行目のテキスト開始位置に揃える。

(3) 番号付き箇条書き
番号付き箇条書きもビジネス書などで頻繁に見かけます。その特徴は:
・ブロック全体の左余白は文脈依存である。しかし、敢えて言えば番号の位置をブロックのパラグラフ左開始位置に置くのが多いようだ。
・ブロックの前・後の空きは文脈依存である。
・番号と項目のテキストの間には若干の空きがある。項目が長い時、2行目は1行目のテキスト開始位置に揃える。
・第一階層の番号は通常はアラビア数字で区切りにはピリオドを付ける。

[1] “New Hart’s Rule” Oxford University Press 2005
[2] “The Chicago Manual of Style. 15th Edition” The University of Chicago Press, 2003

本の形を考える―最初の段落の先頭行字下げ規則は?

本の形を考える―段落と段落のスタイルを考える(草稿)(4月5日)[1]で次のように書きました。

英語の文章では先頭の段落は字下げせず、次の段落以降を字下げすることが多い

英語のスタイルの本で先頭段落の字下げについて明記している本は少ないようですが、”New Hart’s Rule”[2]には次のように記述されています。

章、節、項の見出しに続くテキストの最初の行は左マージンまでフルに配置され、パラグラフのインデントはない。続く各パラグラフの最初の行は通常インデントされる。(p.15)

このパラグラフ・スタイルを自動組版でできるだけ簡単に実現するには、先頭の段落とはなにかをプログラムで処理できるように規定する必要があります。そのために実際の本ではどうなっているかを調べてみました。

次に挙げる例は、”Making News at the New York Times”[3]の一部分です。

この本では、章、節の見出しに続く第1段落は字下げなし、第2段落以降は字下げするという標準的な段落スタイルで組版されています。

page150
図1 章のタイトルの直後の段落は字下げしない例(p.150)

本書はニューヨークタイムズの編集現場でのフィールド調査の報告で、記者に対するインタビューの引用箇所が多数あります。引用箇所の多くでは引用の直後の段落で字下げしていません。つまり直後の段落を第1段落として扱っているわけです。

p46
図2 引用の直後の段落で字下げしない例(p.46)

しかし、さらに調べますと、引用の直後の段落で字下げしている箇所も見つかります。

p80
図3 引用の直後の段落で字下げする例(p.80)

こうしてみますと、引用直後の段落を第1段落として扱うか、続きの段落として扱うかは文脈依存になるようです。

MLA Handbook[4]を見ても、引用文のブロックの直後の段落を継続段落(先頭行字下げ)とするか、最初の段落(先頭行を字下げしない)とするかは、文脈依存になっています。

実際の本では、段落と段落の間に、図、数式、引用、箇条書き、(プログラム)コードなどのブロックが入ることが多いのですが、それらのブロック直後の段落で字下げするかどうかを画一的なルールで処理するのは難しいようです。

[1] 本の形を考える―段落と段落のスタイルを考える(草稿)
[2] “New Hart’s Rule” Oxford University Press 2005
[3] Nikki Usher “Making News at the New York Times” The University of Michigan Press, 2014
[4] “MLA Handbook for Writers of Research Papers. Seventh Edition” The Modern Language Association of America, 2009 MLA Handbookは、学部レベルのレポート執筆要綱のガイドなので本文の記述ではなく、印刷された本のレイアウトを見ています。

本の形を考える―段落と段落のスタイルを考える(草稿)

段落のスタイルについて検討します。

1. 目的

段落のスタイルでは、段落全体をどのような大きさで、どのような種類の文字(フォントファミリー)で、どのように配置するかなどを指定します。段落の配置において考慮することは、段落と段落の間をどの程度空けるか、段落の先頭をどのように処理するか、段落の行の左右字上げ・字下げ、揃え(中央・左右)、段落の先頭や末尾の行が次の頁に1行あるいは1文字だけはみ出したときにどうするかなどです。

XSL-FOやCSSのようなスタイルシートの仕様では、様々な段落スタイル指定機能があります。しかし、XSL-FOやCSSは、このスタイル指定機能をどのように使いこなすべきかということは決めていません。使いこなしはあくまで指定する側に委ねられています。

CAS-UBのような本を作るためのツールでは、適切な段落スタイルを簡単に指定できるようにするのが大切です。段落スタイルは本の種類や文章の内容によって変わります。そこで何種類かのスタイルを用途に応じて簡単に選択し、切り替えできると便利です。現在のところ段落スタイルの切り替え機能は不十分ですが、今後、これを強化していく予定です。

2. 段落とは

最初に段落とはなにかを簡単にまとめます。段落に相当する英語はパラグラフ(Paragraph)ですが、この文章では段落とパラグラフを同じ意味に使います[1]

文章の区切りを大きく分けると、①章のような大きな区切り、②節のような中程度の区切り、③段落のような小さ目の区切りに分かれます。野口[2]は文章を長さで分類するとパラグラフ、短文、長文、本の4種類になると言っています(p.87)。段落は文章を構成する基本単位であり、本のテキストは段落の集合です。段落よりも小さな単位に文・センテンス(sentence)があります。段落は意味をもつ最小単位であり、文は文法的な最小単位です。

野口[2]は段落は150字程度が良いといいます(pp.89-90)。木下[3]は、原則として一つの文だけからなるパラグラフは書くべきではないとして、パラグラフの長さには制限がないが敢えていえば200字~300字といいます(pp. 72-73)。1行40字のときは行数にして数行~7,8行程度になります。一般の書籍を見ますともっと長い段落も頻繁にでてきます。一つの段落で1,000字を超えることもあります(吉川[4] pp.68-70) 。

英語の文章のパラグラフの長さについて規定は見たことがありませんが、実際の書籍を見ますとかなり長いパラグラフが普通に出てきます。パラグラフの長い英語の本を日本語に翻訳するとき、もし英語のパラグラフをそのまま日本語の段落にすると1段落がかなり長くなるはずです。実際に、日本語の翻訳本を調べてみますと段落が長くなっている傾向があるようです。

段落の長さと段落のスタイルには関係あるかもしれません。

3. 段落の区切りの可視化

段落が文章の意味的な塊であるならば、その区切りが明確になる段落スタイルを採用すると文章の意味が判りやすくなります。段落のスタイルは、段落間の空きと段落の先頭処理によって規定できます。次に段落の区切りを判りやすくするためのスタイルを検討します。

3.1 改行で段落を区切ること
段落の区切りでは行を改めるのが一般的です。では行を改めれば段落の区切りかというとそうではなく、改行していても段落の区切りでないことがあります。次のような例があります。

(1) 用紙に印刷する場合、段落内で文字を配置していくとき、基本版面(テキスト印刷領域)の幅の終わりで改行します。このような自然改行は段落の終わりではありません。自然改行と段落の終わりが一致した場合、改行だけでは段落の区切りが分りません。
(2) 行を配置していくとき、段落の途中で基本版面の一番下の行の終わりに至ったとき、改行と改頁が同時に行われます。
(3) 段落の中にブロック数式などを置いたときは、ブロック数式の後で改行しますが、次の行は段落の続きになります。
20150405a
図1 野口悠紀雄『金融緩和で日本は破綻する』ダイヤモンド社 2013年発行 p.35

3.2 段落間の空き

改行のみでは段落を可視化するには不十分です。このため段落を可視化するには、①段落間の空きを段落内の行間よりも広くするか、②段落と段落の間の行間と段落内の行間を同じとし、3.3の段落の先頭処理と組み合わせた段落スタイルを使います。

英語の本では段落間の空きを広く取ることで段落の区切りを明確にするスタイルもよく見かけます。

20150405b
図2 Eliot Kimber “DITA for Practitioners” XML Press 2012

段落間の空きを通常の行間より広くするとき、その空き量をどの程度にするかは段落スタイルの選択となります。

Webページや電子メールのように画面に表示する文章は段落間を空けるスタイルが一般的です。しかし、印刷物の通常段落ではあまり推奨されていません[5]。印刷物ではページの区切りがあるため(3.1の(2)のようなケース)で段落の区切りか、段落内のページの区切りかを視覚的に区別しにくくなるからとのことです。

3.3 段落の先頭処理
日本語の文章では段落の終わりで改行した上で、次の段落の先頭を1文字下げるのが一般的です。

英語の文章では先頭の段落は字下げせず、次の段落以降を字下げすることが多いようです。
20150405c
図3 “The Chicago Manual of Style, 15th edition”

但し、日本語同様にすべての段落を字下げしている書籍もあります。字下げのことをインデント(indent)、段落の字下げを paragraph indentionまたはparagraph indentationといいますが、Paragraph Indentionのことは『Chicago Manual』15版には出てきません。Googleで検索してみますと、14版では記述があり、15版で削除されたとあります[6]

英語の文章の場合、ドロップキャップ(Drop Cap)という、先頭文字を大きく・飾り文字とすることで段落の区切りを明確にする方法があります。
20150405d
図4 Smithsonian Books “Nationnal Air and Space Museum, Third Edition” 2009

ドロップキャップはすべての段落の先頭ではなく、最初の段落の先頭文字に対する処理です。日本語でもそのような本を見かけますが、あまり読みやすいとは言えません。ドロップキャップは装飾の一種でしょう。

3.3 課題

(1) 本の中には2.段落で定義したような段落だけではなく、引用文、箇条書き、注釈のようないろいろな種類の文章がでてきます。このようなときスタイルの定義をどうすると良いか?
(2) 3.3により、特に英語の文章の場合、最初の段落とはどのような段落かを定義することが大事になります。

[1] 段落―Paragraphの長さは日本語と英語でかなり違うことがあるようです。もしかするとParagraphは野口・木下のいうことと違う場合があるのかもしれません。しかし、ここでは文章の書き方を検討するわけではありませんので、段落とParagraphの意味関係には深く立ち入りません。
[2] 野口悠紀雄『「超」文章法』中公新書 2010年
[3] 木下是雄『理科系の作文技術』中公新書 2011年
[4] 吉川浩満『理不尽な進化』朝日出版社 2014年
[5] The Chicago Manual of Style Online. “Manuscript Preparation” Web http://www.chicagomanualofstyle.org/qanda/data/faq/topics/ManuscriptPreparation/faq0065.html 2015年4月5日
[6] ask.metafilter.com. “No indentation of initial paragraphs?” May 18, 2005. Web. http://ask.metafilter.com/18872/No-indentation-of-initial-paragraphs 2015年4月5日