オープンソース収益化のモデル(メモ)

Gigazineに「オープンソースによる収益化への挑戦」[1]という記事がありました。内容はニューヨークタイムズのブログの記事の紹介のようです。これも一種のオープンソースの利用方法のようなものですが。オープンソースは、利用者には便利この上ないものです。

しかし、オープンソースを提供する立場で考えると、穴の開いたバケツで水(収益)をくむようなものです。収益が穴からこぼれてしまうので、ビジネスモデルとしては難しいところがあります。

ニューヨークタイムズの紹介しているBit Switch Networksの例は、フリーミアムモデルの一種でしょう。つまり、無償の見本と有償の製品を用意して、無償で客を集めて有償製品を売るという方法です。しかし、無料から有料への転換はなかなか難しいものです。

このほかによくあるモデルは補完モデルです。つまり、有償の製品を用意するとともに、無償の補完ツールをオープンソースで提供する方法です。小さな例ですが、アンテナハウスでもPDF5[2]というオープンソースを提供しています。これは、DITAで、AH Formatterという有償製品を選択してもらうためのツールです。PDF5があることによって、DITAのユーザーがAH Formatterを選択しやすくなります。差別化戦略の一つにもなります。

オープンソースの主流は、もっと広い意味での補完モデルでしょう。たとえば、Google がChromeを提供するのも結局は検索エンジンや広告媒体としてのGoogleの利用を増やそうということが目標と思われます。

あとはサービスモデルがあります。つまり、オープンソースの提供者は、自らがそのツールについて詳しいのですから、それを使って企業などに付加価値サービスを提供するというもの。アンテナハウスはDITAのスタイルシートを開発するサービスを行っています[3]が、これはPDF5というオープンソースをお客さんの企業のために自らカスタマイズするサービスです。サービスモデルの問題点は、競争相手も同じオープンソースを使うことができるので、結局、ノウハウを競争相手に提供することになりかねないことです。(続がちょっと:オープンソース収益化のモデル(メモ) 続き

最近、なかなかうまいなと感じたのは、Hypothes.isのモデルです。Hypothes.isについては前回のブログ「注釈実装と注釈サービスの拡大、EPUBリーダーでの実装、および注釈の標準化への動き。」[4]で紹介しました。自らを非営利法人として、スポンサーを募って資金を集める方法です。お金持ちの財団、大学の財団などの慈善団体から資金を集めるというやり方です。これは一種の喜捨モデルと言えます。

ここにいくつかの類型を上げましたが、実際のビジネスではもっといろんなモデルのために知恵を絞っていかねばならないと思います。

[1]オープンソースによる収益化への挑戦
[2]DITAをPDFにするには
[3]アンテナハウスDITAサービス
[4]注釈実装と注釈サービスの拡大、EPUBリーダーでの実装、および注釈の標準化への動き。

注釈実装と注釈サービスの拡大、EPUBリーダーでの実装、および注釈の標準化への動き。

注釈とは、他のコンテンツのある部分に関連つけた内容のことである。PDFやマイクロソフトWordには独自の注釈機能がある。また、電子書籍/EPUBリーダーではKindle、iBooksを初めとしてEPUBのある箇所にしおりをつけたり、マーカーで色をつけたり、コメントを記入する機能がある。

これらの様々な注釈はメディア別に独自の実装が行われており交換可能ではない。注釈を交換可能にするためにはオープンな標準仕様が必要である。現在、Webを中心にさまざまな注釈の標準化が始まろうとしている。

1.注釈を実装するプロジェクト

(1) Annotator(http://annotatorjs.org/)[1]

Annotatorは主にNick StenningとAron Carrollによる、Webに注釈をつけるためのオープンソースのJavaScriptライブラリー開発プロジェクトである。GitHubのコントリビュータをみると、最近はNick Stenningに加えてHypothes.isのRandall LeedsとKristof Csillagがかなりコミットしている[2]

Annotatorはコアをプラグインにより簡単に拡張できる仕組みになっている。Store(保存用)、Auth(認証用)などのプラグインが用意されている。

注釈データはJSON文書で、指定した対象文書の中で、注釈の位置と内容を示す多数のフィールドから構成している。プラグインを追加するとそのプラグイン用のフィールドが追加される。

現時点で、Annotator v1.2.9(2013/12/3)が最新である。
V2.0の開発が始まっている。

次に述べるHypothes.isをはじめとする様々なプロジェクトで使われている[3]

(2) Hypothes.is

Hypothes.isは非営利活動法人として、さまざまな団体からの資金をあつめて、Webの注釈サービスを提供する。Hypothes.isは、Open Annotation Collaborationが作成している注釈仕様とAnnotatorプロジェクトを元にしていると主張している。たとえば、Annotatorの初期投稿者であるAron Carrollが製品開発担当として参加している[4]

2013年4月から”I Annotate”というカンファレンスをサンフランシスコで開催しており、2014年の”I Annotate 2014″は4月3日から5日に開催された[5]

Hypothes.isは前日に同じ会場で開催されたW3Cの注釈ワークショップのスポンサーになっており、設立間もないにも関わらず注釈サービスの分野で強力な存在になりはじめている。

たとえば、Journal of Electronic Publishingの2014年4月号は、Hypothes.isを採用して学術誌のWeb版に注釈を可能にした(次の図)[6]

JEP20140727

Hypothes.isのブログや公開されたスポンサー(資金源)を見ると、教育分野での注釈にかなりウエイトを置いているように見える。

2.EPUBの注釈

(1) EPUB.js

Fred ChasenによるEPUB表示用JavaScriptである。サンプルの中にHypothes.isと組み合わせてEPUBに注釈を表示するところを示すものがある。”I Annotate 2014″で、Fred Chasenらによるプレゼンが行われている[7]

(2) Readium

EPUBの仕様を策定しているIDPFはReadiumというEPUBリーダー開発プロジェクトを運営している。ReadiumにはReadiumSDKと、Readium.jsがある。

Readium.jsはChromeの拡張アプリケーションとして配布されているが、注釈機能は用意されていない。

Readium.jsのソースレポジトリにはWeb Annotationのためのレポジトリが用意されているがまだ内容はなにもない[8]

Readiumは注釈機能の追加を考慮しているが、注釈の標準化がまだということで実装には至っていないように見える。

(3) IDPFのOpen EPUB Annotation (7/29追記)

IDPFは、教育用テキスト向きのEPUBプロファイル仕様の策定を進めている。EDUPUBは、5月28日にすでにドラフトが公開されている。
EDUPUB仕様策定の一環として「Open Annotation in EPUB」仕様のドラフトが作成されている。[13]
W3Cにおける仕様策定作業との関連性が不明であるが、EPUBの注釈仕様は早くできるかもしれない。

3.注釈の標準仕様策定への動き

Open Annotation Collaborationでは「Open Annotation Data Model」というコミュニティ仕様を提案してきた。これは注釈を交換可能な枠組みを作ることを目的としている。この活動は次のW3Cの活動に継承されており、Open Annotation CollaborationのWebサイトは歴史的な目的で保存されている、とされている[9]

4.W3Cの動き

(1) Open Annotation Community Group

W3Cは、Open Annotation Collaborationの動きを吸収して、Open Annotation Community Groupを開設し、この分野への参入を狙っていた[10]

(2) 注釈ワークショップ

2014年4月2日にサンフランシスコでW3C初の注釈ワークショップが開催された[11]。″I Anotate 2014″と同じ会場で開催されており、Hypothes.isがスポンサーになっている。

ここでは、既存の注釈システムと注釈の実装、注釈モデルへの一般的な要求、頑健なアンカー、画像などのデータに対する注釈、蓄積とAPI、アクセシビリティと法的な問題というセッションに分けて注釈についての現状と要求のプレゼンテーションがなされた。

注釈の課題についての20のプレゼンテーションがあった。報告書にはプレゼン、ビデオが添付されている。主なものは次の通り。
・注釈の課題は、注釈本体のコンテンツよりも、注釈の本体と対象コンテンツとの関連付けにある(Randall Leeds (Hypothes.is, USA) )。
・マイクロソフト・オフィスオンライン、VisualStudioにおける注釈(Chris Gallello (Microsoft, USA) )
・学術分野における注釈(Anna Gerber (University of Queensland, Australia))
・Logosソフトとサービス。聖書関連の注釈の利用者は注釈にお金を払う。(Sean Boisen (Logos Bible Software, USA))
・出版におけるさまざまな注釈(James Williamson (John Wiley & Sons, USA))

(3) 注釈WG結成への動き

2014年7月14日からデジタル出版活動に注釈のワーキング・グループ(Annotation Working Group)を設立する憲章の検討に入った。WGの憲章は8月19日まで公開レビュー中である。その目的は注釈についてのオープンなアプローチで、ブラウザ、電子書籍リーダー、JavaScriptのライブラリーなどで注釈をつかえるエコシステムを作ることである。開発目標としては次の項目が挙がっている[12]

(a) 抽象データモデルと語彙の開発:これは、W3CのOpen Annotation Community Groupが開発したOpen Annotation Data Modelからスタートする。
(b) HTMLや埋め込みデータ形式へのシリアライズ
(c) DOMやスクリプトへのインターフェイス
(d) リンクのメカニズム:WebApps Working Groupとの共同で開発する。

9月に最初の電話会議を行い、12月に最初のAnnotation Abstract Data Modelとその語彙(Vocabulary for the Annotation Abstract Data Model)に関する草稿を発行する。

数年で最終成果物として勧告仕様を作成することを目論んでいる。

[1] Annotator
[2] Annotator GitHub
[3] Annotator Showcase
[4] Hypothes.is
[5] “I Annotate 2014”
[6] New Feature: Article Annotation with Hypothes.is
[7] Epub.js: Bringing Open Annotation to Books
[8] web-annotations
[9] Open Annotation Collaboration
[10] Open Annotation Community Group
[11] 注釈ワークショップ報告(Web Annotations Workshop Report)
[12] draft charter for the Annotation Working Group
[13] Open Annotation in EPUB, Draft Specification 28 May 2014
[14] 注釈を利用する形態についての整理

今日から国際電子出版EXPO POD本、PDFから画像作成ツール、ほか出展いたします。

7月2日本日から国際電子出版EXPOです。

アンテナハウスは、西展示棟(アンテナハウス・ブース: 14-61)にて出展いたします。

大変失礼しました。昨日、ブース番号が間違っておりました。

IMG_20140702_111218

出展1 CAS-UB
今回の出展はCAS-UB V2.2(昨年の終わりにV2.2とし、また、先月6月26日に改訂を行なっております。)

CAS-UBではEPUBを制作するのみではなく、同一のソースから印刷に使えるPDFを作ることもできます。

出展2 POD本
電子出版なのに、なぜPOD本?と疑問をお持ちの方に。
ワンソース・マルチユースでEPUBとPOD本がスマートです。

昨年来CAS-UBで制作、PDFを生成してPOD(プリント・オン・デマンド)で書籍とした出版物も用意いたしましたので、ぜひ、お手にとってご覧ください。

pod-2nd

ちなみに、最新刊は『PDFインフラストラクチャ解説』となります。ぜひお手にとっていただき、紙面レイアウトについてのご意見を承りたいと存じます。

出展3 PDF画像制作ツール
PDFからキャプション付きの画像を作ったり、数式を自動認識してSVGにすることができます。
簡単な紹介はこちらにございます。
電子出版サービス 日々開発途上!

会場では、ぜひ、デモをご覧ください。

出展4 電子書籍配信システム
会員制の電子書籍の配信のためのシステムを試作しました。

IBM EPUBを社内文書の標準として使う

2月に「IBMがEPUBを社内文書の一つに正式採用」というニュースが流れました。[1]そのとき、IBMがEPUBについての白書を出すという予告がありました。5月27日にその白書が公開されました。白書自体もEPUB3になっています。

○ニュース:EPUB to Create Rich, Inclusive Content Across the Enterprise
Transforming the Mobile Experience – full paper(白書)(EPUB版の白書)

以下はその概要です。ざっと一読して記録したメモですので、詳しくは各自原文をご確認ください。

○はじめに
・コンテンツをモバイル環境向けに仕立てることを考える時期である。

○EPUBとは何か?
・EPUB3についての概要と期待

○なぜEPUBなのか?
EPUBは会社の新しい文書標準である。その理由は:
・PDFとHTMLではモバイルに不十分
・EPUBは標準であり、オープンなWeb技術ベースである
・アクセシビリティ
・PDFよりコンパクト
・対話的な文書ができる、クラウドサービスとの連携
・PDFを作るソフトのライセンスは高価
・EPUBリーダーは多い
・HTML5ベースなのでPDFより翻訳、データマイニングと分析に使いやすい
・IBMはDITAを基本の文書形式としており、DITAの生成物にEPUBを追加するのは容易
・Readium Foundationで問題を解決している
・IDPFとW3Cによる標準化推進

○製品のドキュメンテーションはDITAを使ってEPUBにする
・DITAはIBMが最初開発し、OASISに寄贈して標準となった。既に幅広い業界で利実績がある。
・IBM社内ではDITAをすべての製品のドキュメントに利用している。200万以上のトピックから1000万以上のWebページとPDFを生成している。
・DITA Open Toolkitのカスタム版でDITAからPDF, HTML, OpenDocument, RTF,ヘルプを生成している。EPUBはDITA for Publishersを使える。

○学習コンテンツを配布するためDITAとFrameMakerでEPUBにする
・EPUBは学習コンテンツを様々なデバイスに配布するのに適切である。
・DITAは、モジュール化した学習コンテンツの開発をサポートしている。Overviewトピック、Contentトピック、Summaryトピック、Assessmentトピックという学習トピック型がある。
・学習マップにより組み立てができる。
・IEEEのLOM(Learning Object Metadata)に従うメタデータドメインがある。
・Adobe FremaMaker12は、学習・訓練用のコンテンツをDITAでオーサリングするためのビルトインサポートがある。

○Adobe のInDesignでEPUBを作る
・ブランドマーケティング分野ではInDesignでPDFを作ることが多い。
・InDesign12からEPUB出力をサポートしている。
・DITAをInDesignにインポートしInDesignで洗練されたレイアウトのEPUBを作ることができる。DITAからOTで生成物の自動作成のと両方ができる。

○アクセシビリティの機能強化
・アクセシビリティの中核はオープンなWebにある。
・SVGにアクセシビリティを追加したSVG2が開発されている。SVG2をEPUBに組み込めば、アクセシブルな図版を提供できる。

○EPUB Reader
・EPUB Readerについては、Readium Foundationに期待している。しかし、Readiumはまだ実用的になっていない。
・IBMは暫定的な解決策を探した。IBM全社員向けのシステムはブラウザベースのEPUBリーダーが好都合である。Lucifox EPUBリーダーというFireFox用プラグインを採用し、Lucifoxに対してアクセシブルな機能を追加した。これは現在IBMの40万のシステムに組み込まれている。

[1]「米IBMが電子書籍ファイルフォーマットEPUB3を社内文書の1つに正式採用」、というニュースに接して。EPUBの現状と今後を少し考えてみる。

EPUB標準化関連活動のアップトゥデイト 2014/6/15

EPUB標準化関連活動について、前回、1月までの進展を整理しました。[1]今日はその続きです。

1.EPUB 3.0 本体
EPUB 3.0.1 概要
変更点

○進捗
2月28日にドラフト仕様からIDPFのProposed Specification(February 28, 2014)となる。
~4月25日 パブリックレビュー
現在、勧告仕様化のためのIDPFメンバー投票中。投票期間は6月11日~6月25日まで。

2.関連プロファイル仕様
1)EPUB Index(索引)
EPUB Indexes 1.0
2月28日にProposed Specificationに進んだ。

2)ハイブリッドレイアウト (Advanced-Hybrid Layout Working Group)
3月26日にパリでワークショップを開催。
IDPF Workshop on EPUB Comics/Manga – March 26 (Paris)
内部的に改訂されているが、公開されている仕様はドラフトの状態から進展していない。

3)EPUBの辞書と用語集(Dictionaries and Glossaries working group)
EPUB Dictionaries and Glossaries
2月に公開ドラフト第一版が発表された。

4)注釈:Open Annotation (EPUB)
Open Annotation in EPUB
5月28日に公開ドラフト第二版が発表された。

5)EDUPUB
EDUPUBはもっとも活発です。2月から5月までの進捗は次の通りです。
① ワークショップ
a.2月にソルトレークシティで第2回ワークショップを開催
EDUPUB Salt Lake City Workshop Report
ポイントは次の通り。
*第一回のBoston ワークショップからの進展について。最初のパネルでEPUBを教育コンテンツの配布媒体として利用することが実践的かどうかを議論。
*評価、結果、分析に関して。たとえば、IMSのQTI、Caliper分析フレームワークにより、結果を集めたり、リアルタイムのレベル付けすること、などについてプレビュー。
*第一回ワークショップ後にIDPFに二つのサブグループができた。各WGからの報告があった。
**コンテント・グループはEPUBのマークアップ・プロファイルを作成中で、ワークショップ前に最初のEditor’sドラフトを出した。
**二つ目のグループは学習オブジェクトのような、分離したオブジェクトの配布を検討している。ドラフトは近々出す予定(2/27時点)。(5/28公開のEPUB Distributable Objectsが該当するのだろう)。
**shcheme.orgのメタデータを統合するガイドができた。
JEPAによる日本での報告会
b.6月にオスロでの第3回ワークショップを予定
EDUPUB Europe 2014
EDUPUB Europe Program June 19, 2014

②仕様案
EDUPUB関連の公開資料リスト

5月28日に、EDUPUBプロファイルなどのドラフト仕様が公開された。これらの仕様をオスロのワークショップでレビューする予定である。

EPUB 3 EDUPUB Profile
EDUPUB Structural Semantics
・Open Annotation in EPUB (上記)
EPUB Distributable Objects
EPUB Widget Packaging and Integration

[1]EPUB標準化関連活動のアップトゥデイト 2014/1/18

国立情報学研究所 電子図書館サービスを終了へ。電子版ジャーナル提供方法の再検討が必要に。

国立情報学研究所は、学術情報誌を電子化する電子図書館事業の終了を決定しました。

電子図書館(NII-ELS)の事業終了について

NII-ELSでは、学会・協会の論文誌(本文)を電子化しデータベースに蓄積するとともに、そのほかの論文の書誌などとともにデータベース化してCiNiiから公開するという事業を行なっています。現在までに428の学会の1400種類の雑誌の電子化を行い、CiNiiから提供しています。この事業が終了となります。

・電子化は、平成27(2015)年度末を目処に終了
・CiNiiから提供する場合、収入の一部が還元されているが、収入の還元制度は平成28(2016)年度末を目処に終了

NII-ELSが終了するに伴い、これまで同事業に参加して会誌の電子化と電子版の提供を行なってきた学会等は、今後の方針の再検討が必要です。

次のような選択肢があります。
・他のジャーナル・公開サイトへの移行
・自身のホームページでの提供
・機関レポジジトリーでの提供

今後1年半程度の期間での対応が必要です。

現在、日本における学術情報データベースは、国立情報学研究所のCiNiiと、科学技術振興機構(JST)のJ-STAGEの二つが並び立っています。しかし、国の支援は、今後J-STAGEに一本化されるため今回の決定に至ったとのことです。今回CiNiiは終了とされていませんが、いづれCiNiiの方も縮小に向かうのは避けられないでしょう。

アンテナハウスは、現在、学術情報をスマホ・タブレット向けにプッシュ方式により配信する学術情報配信システムを開発しております。情報の配信形式はPDFに加え、スマホやタブレットでの閲覧に向いたEPUB3形式にも対応しています。

また別途、PDFからEPUB3、Web(HTML)への変換なども簡単に行なえる仕組みを開発中です。NII-ELSの事業終了を受け、これらのサービスの提供開始時期を早めたいと考えております。

詳細は cas-info@antenna.co.jp までご連絡ください。

米国旅行で、メルマガEPUBは待ち時間に読むのに最適なことを実感しました。

今日、5日ゴールデンウィークもそろそろ終盤というところです。電子書籍関係の話題では、ゴールデンウィークにfacebookに「緊デジレスキュー:経産省コンテンツ緊急電子化事業検証グループ」ができました。緊デジについてはどこかで検証は必要ですし、事業主体には説明責任を求めるべきだと思います。

さて、本題ですが、連休を利用して7泊8日米国西海岸(アナハイム、ポートランド)に遊びにいってきました。いままでの旅行では、紙の本を持っていくことが多かったのですが、今回は紙はやめてEPUBを持っていきました。

といっても、書籍ではなくて、小寺メルマガ「金曜ランチボックス」[1](夜間飛行)のEPUB版です。
以前に、CAS-UBのメルマガEPUB変換機能を開発[2]したとき、いろんなEPUBを購読してみましたが、結局、他のメルマガはすべて購読をやめて、「金曜ランチボックス」だけを継続して購読しています。

「金曜ランチボックス」は名前どおり毎週金曜日の12時に配信されます。しかし、とにかくメルマガ以外も含めてメールの受信数が多いため、どうしても読まないままで見過ごすことが多くなっています。実際、日ごろは3分の1も読んでいないように思います。もうやめようかな、とも思っていたのですが。

今回、海外旅行で飛行場などでの待ち時間が多くなりますので、思い立って「金曜ランチボックス」のバックナンバーEPUB版をまとめてダウンロードして、小型タブレット(NEXUS5)に入れてもっていきました。

Screenshot_2014-05-05-01-22-59
図 楽天Kobo(NEXUS5)の「金曜ランチボックス」

空き時間を利用して、メルマガEPUBをちょこちょと読みましたが、実に便利です。

1.EPUBだとオフラインで読むことができます。飛行機の中は無論オフラインです。米国では空港やホテルなどでは無料のWiFiサービスが充実しています。しかし、無料WiFiといっても初回アクセス時に、メールアドレスなど個人情報を登録要求されますのであまりむやみに登録はしたくありません。こうしたときにオフラインで読むことのできるメルマガは便利です。

それに比べますと、Webなどのオンラインニュースも良いですが、やはりオンラインのみというのは不十分です。

2.メルマガは記事もそれほど長くなく、待ち時間でさっと読むには最適な分量です。

こうしたことでメルマガEPUBの便利さを再認識しました。メルマガEPUBは配信の仕組みをもっと考えると、きっと良い媒体になるでしょう。

[1] 金曜ランチボックス
[2]メルマガEPUB変換機能を正式サービスに追加しましたほか

PDFからXML形式への変換ライブラリーのアルファ版を公開しました(2015年5月より正式版販売中!)

Antenna House PDFXML変換ライブラリは、PDFファイルを読み込み、内部のテキスト、図、画像などをXML形式に変換するプログラムです。本ライブラリを使用することで、PDFデータの再利用が簡単にできます。詳しくは:PDFの内部のテキスト、表、図をXML形式に変換!(http://www.antenna.co.jp/pdfxml/)

1.AHPDFXML 変換ライブラリの機能

AHPDFXML 変換ライブラリは、PDFに含まれるコンテンツをテキスト、表、画像などの情報単位にまとめて独自のXML表現(「AHPDFXML形式」)に置き換えます。

- AHPDFXMLの出力例 -
図 AHPDFXMLの出力例

AHPDFXML形式には、以下の各種情報が含まれます。

* テキスト情報:PDFに格納されたテキストデータを位置情報とともに出力します。
* ブロック情報:PDFに格納されたテキストデータの配置から、行、段落、段組みの各書式情報を出力します。
* 表情報:PDFページ内に配置された線分データの配置から表組み情報を出力します。
* 画像情報:PDFページ内に埋め込まれた画像データを外部ファイルとして抜きだします。
* 線画情報:PDFページ内に配置された線分データをSVG形式の外部ファイルに変換します。

2. AHPDFXML 変換ライブラリの用途

* PDFをXML形式に変換することによって、PDFデータの扱いが容易になります。
* XSLTスタイルシートを定義して用途に応じた加工が柔軟に行えます。
* PDF内のコンテンツはすべて位置(座標)情報とともに出力されます。これによりページ内の任意の範囲を指定したデータ参照が容易にできます。
* PDF内のブロック情報、表情報、画像情報を参照することにより、DocBookなど文書構造を記述するデータに加工することができます。

3. 対応プラットフォーム

AHPDFXML 変換ライブラリ アルファ版では、以下のWindows環境に対応します。

* Windows Server 2012/2012 R2(64bit)
* Windows Server 2008 R2(64bit)
* Windows Server 2008(32bit/64bit)
* Windows 8.1(32bit/64bit)
* Windows 8(32bit/64bit)
* Windows 7(32bit/64bit)

※Linux版は今後開発予定です。他のOSについてもご要望により対応可能です。

2017年4月28日 AHPDFXML 変換ライブラリV2.0をリリースしました。
2015年5月19日 AHPDFXML 変換ライブラリV1.0をリリースしました。
Microsoft Windows版とLinux版があります。

4. お問い合わせ先

アンテナハウス・OEM営業グループ
Eメール:oem@antenna.co.jp

(2017/5/4追記)このブログを書いてから3年経過しました。その後の2015年5月19日バージョン1、2017年4月28日にバージョン2を発売しています。製品情報について詳しくは次のページをご参照ください。

PDFの内部のテキスト、表、図をXML形式に変換!(http://www.antenna.co.jp/pdfxml/)

Safari とFireFoxのMathMLレンダリングの改良は、クラウドファンディングを利用したボランティアの手で進んでいる

昨日の「WebKitの数式(MathML)でSafariはボランティアの努力を採用し、数式を表示できる。Chromeは同じものを不採用として批判を浴びる。」の最後で、「WebKitもGeckoもMathMLレンダリングエンジンの開発は、ボランティア任せで専任の担当者はチェックしかしていないようです。」と書きましたが、その点についてもう少し掘り下げてみます。

WebKitのMathML関係のバグは、2013年4年1日~2014年3月8日までに、解決済みとなったものが52個あります。そのうち重複(DUPLICATE)が6件、終了(FIXED)が、46件となっています[1]。バグの内容を詳しく確認してないのですが、着実に進んでいるといえます。

FIXED46件の中では、fred.wang@free.frにアサインが22件、*@appleにアサインが14件、その他10件となっています。

WebKitについてはこの1年弱で、MathMLバグの大半がFrédéric Wang氏により、残りの多くをアップルの関係者が解決しているとみて良いでしょう。

Mozillaの方も同様で、同じ期間にFIXEDになったバグ40件の中で17件がFrédéric Wang氏によるものです。

Frédéric Wang氏のブログ[2]を見ますと、この人はフランス人のエンジニアで、現在、アメリカ数学会(American Mathematical Society)のMathJaxプロジェクトの外部契約エンジニアとしてMathJaxの改良に携わっているとあります。

Frédéric Wang氏はWebKitとGeckoのMathMLレンダリングの改良にもっと時間を割くため、2013年の11月19日からクラウドファンディングを利用して資金を集めました[3]。募集期間は終了していますが、3ヶ月程度はフルタイムで働く資金が集まったようです。

ボランティアの手によって、WebKitとGeckoという二つのレンダリングエンジンではMathMLの改良が少しずつ進んでいます。これから、バグ修正したレンダリングエンジンが、SafariやFireFoxに反映されるのが楽しみです。

Microsoft、Google、Appleという巨大な企業が、MathMLにあまり関心を持たずにボランティアが草の根的に改良しているという現状は、TeXにも似ているような気がします。それにしても、科学の根源である数学に対して、大ブラウザベンダーがあまりにも冷淡な・・・

[1] WebKit Bugzillaを、bug_status=RESOLVED、resolution=FIXED&resolution=DUPLICATE、chfieldfrom=2013-04-01&chfieldto=2014-03-08で検索した結果。
[2] Blog de Frédéric:About Me
[3] Funding MathML Developments in Gecko and WebKit (part 2)

WebKitの数式(MathML)でSafariはボランティアの努力を採用し、数式を表示できる。Chromeは同じものを不採用として批判を浴びる。

前の記事 EDUPUBで数式をどのように表わすのか? MathMLが飛翔するか、それともSVGなのか?の続きです。

HTMLに数式を埋め込む方法はいくつかあります。ここでは、MathMLを埋め込んだときの表示について検討します。

ちなみにMathMLとはどんなものか、を知るには次の資料をご覧いただくと良いと思います。

http://www.antenna.co.jp/AHF/ahf_samples/v62/Seminar20140307.pdf

HTML5ではMathMLの要素をHTMLの要素と同じように記述することができます。次のページにサンプルがあります。

http://www.w3.org/TR/2012/CR-html5-20121217/embedded-content-0.html#mathml

HTMLの中に記述したMathMLをブラウザで表示する方法として、ブラウザのネイティブレンダリング機能で表示する方法と、MathJaxというJavascriptを使って表示する方法があります。以下の話はネイティブレンダリング機能で表示する方法に関するものです。

ブラウザの有力なレンダリングエンジンのひとつがWebKitです。WebKitは主にアップルが中心になって開発してきたものでアップルのWebブラウザであるSafariで使われています。グーグルもChromeブラウザでWebKitを使っていました。なお、グーグルは2013年の春にレンダリングエンジンをBlinkに切り替えることを発表し、2013年7月リリースのChrome28以降はBlinkベースとなっています[1]。また、Androidの標準ブラウザもAndroid4.4からBlinkベースとなっています。

MathMLは、1998年にV1がW3Cの勧告となっており、歴史の古い仕様です。利用もWebブラウザ以外の領域ではかなり普及しています。ところがブラウザのネイティブレンダリング機能によるMathML表示はなかなか進んでいません。

現在、主要なブラウザでMathMLのネイティブレンダリングをサポートしているのは、Safari 5.1以降[2](WebKit)とFireFox(レンダリングエンジンはGecko)のみです。

GeckoのMathMLレンダリングエンジン開発は、FireFoxになる以前から始まっておりFireFoxは1.0で、既にMathMLの表示をサポートしています[3]。しかし、開発のスピードは遅いようで、かなり沢山の問題が残っています。MathML3.0で規定された算数(Elementary Math)のサポートもありません。

WebKitのMathMLレンダリングも少しずつ対応が進んでいたようですがあまり活発とはいえませんでした[4]。Wikiページの履歴をみますと、4年程前(2010年8月)にAlex Milowski氏とFrançcois Sausset氏による実装が行なわれ、その後2012年にDave Barton氏がバグを修正した後、グーグルは2013年1月にリリースしたChrome24でMathMLを有効にしました[5]。MathMLの実装を行なったのは、正社員や委託契約者ではなく、ボランティアのようです。

しかし、グーグルの開発者は、このMathMLレンダリングは品質的に不十分として2013年2月リリースのChrome25でMathMLのレンダリング機能を使えなくしてしまいました[6]。このChromiumの議論を読みますと、2月時点では、グーグルの担当者からは、問題を解決したらまた使えるようにしたいという、次のようなメッセージが出ています。

#32 “Note that MathML has had to be turned off because the code is not yet production ready.
We hope to turn it on in some future release.
#40 To summarize the current status of this bug: We’d like to enable MathML in Chrome, but the WebKit code still needs further improvements before we can ship it.
(Chromiumより)

しかし、2013年10月になって、次のような新しいコメント(#43)が発信されました。MathMLはMathJaxで十分なので直接サポート(ネイティブレンダリング)は不要という趣旨の発言です。これをめぐってMathMLのネイティブレンダリングを期待する開発者との間で激論となっています。

#43 comment #40 is out of date. MathML is not something that we want at this time. We believe the needs of MathML can be sufficiently met by libraries like MathJax and doesn’t need to be more directly supported by the platform.
(Chromiumより)

グーグル開発者の発言を読みますと、品質は具体的にはセキュリティの問題が大きく、これはアーキテクチャの問題なので簡単には解決できない、ということが指摘されています。一方で、MathMLを期待する側からは、セキュリティについては解決済みであり、機能を使えなくしてからそういうことを指摘しても実際に確認できないではないか、などの批判があります。

これに関して、一般のメディアでも、「グーグルは数式の重要性がわかっていないということで批判を浴びている」という記事が掲載されています。[7]

同じMathMLレンダリング機能をSafariでは有効にしている訳ですから、グーグルのセキュリティに関する発言が実際にどこまで妥当かは判断しにくいところです。

いろいろな記事を見ていきますと、WebKitもGeckoもMathMLレンダリングエンジンの開発は、ボランティア任せで専任の担当者はチェックしかしていないようです。このあたりに問題がありそうに思うのですが、引き続きもう少し調べて見たいと思います。

[1] 「Google Chrome 28」の安定版リリース Blink採用と「リッチ通知」機能(Windowsのみ)(2013年07月10日 )
[2] Safari 5.1 and math (July 21st, 2011 at 8:29 pm by Dr. Drang)
[3] http://fred-wang.github.io/MozSummitMathML/
[4] https://trac.webkit.org/wiki/MathMLには、WebKitのMathMLプロジェクトが記載されており、進捗をチェックできます。
[5] 「Google Chrome 24」が安定版に、“MathML”や“Datalist”要素をサポート (2013/1/11 13:48) 窓の杜ほか
[6] Issue 152430: Enabling support for MathML(chromium)
[7] Google subtracts MathML from Chrome, and anger multiplies(November 5, 2013)