« 書評「金時徳著『韓半島とユーラシア東海岸の五〇〇年史』(メディチメディア社〈韓国ソウル〉)」(染谷智幸(茨城キリスト教大学))●リポート笠間59号より公開 | メイン | プロジェクト人魚・日本ハイジ児童文学研究会主催・シンポジウム「高畑勲の〈世界〉と〈日本〉」○兼岡理恵(千葉大学)●リポート笠間59号より公開 »

2015年12月10日

 記事のカテゴリー : リポート笠間掲載コンテンツ

●山本和明「大型プロジェクトの進捗状況について―基盤整備・機能強化の側面より―」●リポート笠間59号より公開

このエントリーをはてなブックマークに追加 Clip to Evernote Share on Tumblr LINEで送る

リポート笠間59号より、山本和明「大型プロジェクトの進捗状況について―基盤整備・機能強化の側面より―」、を公開いたします。

リポート笠間は、小社のPR誌で年2回刊行しています。送料無料・購読料無料。定期購読は随時受け付けています。お気軽にご連絡ください。詳細は以下のページでご確認ください。
http://kasamashoin.jp/report.html

ご連絡お待ちしております。

----------

国文学研究資料館「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」の動向

山本和明(国文学研究資料館古典籍共同研究事業センター 副センター長)
「大型プロジェクトの進捗状況について―基盤整備・機能強化の側面より―」


 人文社会科学分野としてはじめての大規模学術フロンティア事業「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」が採択されて、もうすぐ二年となる。国文学研究資料館(国文研)では、十年間にわたるこの事業を、館のあらたな飛躍を目指すものと位置づけ、体制を整備し、目下全館をあげて取り組んでいる。事業のあらましについては、本誌vol.56の巻頭インタビューで取り上げていただいており、ここでは進捗状況報告として、基盤整備・機能強化に関わる取り組みの一端を紹介したい。

●三〇万点の画像DB作成と、国際共同研究体制の構築
 この事業の目指すところは、大まかにいって二点ある。一つは、資料撮影やマイクロフィルムからのデジタル・コンバートなどにより、三〇万点におよぶ歴史的典籍の画像データを作成し、提供システムの構築により、広く研究者などの利活用を促進すること。もう一つは、国内外の研究機関との間で国際共同研究を具体的に推進し、事業名にもある「国際共同研究ネットワーク」という共同研究体制を構築すること、である。共同研究では、従来の人文社会科学という枠を越え、複数の学術分野との連携研究を推進しており、かつ各々の分野における研究の指標となるよう、異分野融合研究の醸成、「総合書物学」の推進・構築という具体的な目標を掲げている。

●本年度は医学・理学分野が対象。昨年末で五万四千点のデジタル化を完了。
 今さらめくが、「日本語の歴史的典籍」は、何も人文科学分野の古典籍だけを対象とするものではなく、すべての分野の古典籍を対象としている。事業に携わり、他分野の方々と接する機会も多いが、くずし字で記された古典籍を読み解きたいと熱く語る研究者も多い。こうした研究者やコミュニティの意見を踏まえ、開かれた学術研究基盤を構築し、日本由来の学問領域などを国際的な「場」に引き出すべく、画像作成においても、一つの方針を定めた。それは分野の「選択と集中」という観点であり、十ヶ年をおおむね三期に分割し、現在画像作成にあたっている。医学・薬学・理学(和算)・農学・防災環境・生活文化など、異分野融合研究の可能性の高い分野や、社会貢献などの諸条件を考慮して画像を作成し、共同研究と連動しようとするものである。本年度は医学・理学分野などを対象分野とした。画像作成数では、昨年度末段階で延べ五万四千点のデジタル化を予定通り完了し、今年度は一部の国内連携大学での画像作成もスタートしている。こうした画像の公開はすでに既存のシステム内で始まっている注[1]

●現代に活かすための研究基盤整備
 この事業での三〇万点に及ぶ古典籍のデジタル公開は、貴重資料の保存のみを主目的としては実施していない。それでは「学術フロンティア」事業とは言えないのである。太陽系外惑星の探査や宇宙初期の天体の成り立ちなど新たな宇宙像の開拓を目指すTMT計画(国立天文台)や、アインシュタインが予言した重力波(時空の歪み)を世界に先駆けて観測するKAGRA計画(東大宇宙線研究所)など他のフロンティア事業と同様に、研究者が古典籍のなかに現代的諸課題などの解決に繋がる意義を見いだし、次世代に引き継ぐ「知の宝庫」として、国内外の視点を踏まえた国際共同研究の俎上に引き出すことが、この事業では求められている。いわば現代に活かす取り組みのための研究基盤整備である。難しく考える必要はない。これまでは他の研究分野の典籍であり、確認すらしてこなかったものに、自身の研究を進める記載を見いだすこともあるだろうし、さまざまな研究の萌芽が埋もれていることも発見するであろう。あらゆる古典籍に触れる機会を、多くの研究者が等しく平等に持てることが重要なのだと思う。

●くずし字をテキスト化する新方式OCR技術を開発
 本年七月、国文研、公立はこだて未来大学、凸版印刷の三者の共同研究により、くずし字を高精度でテキスト化する新方式OCR技術を開発したことが、多くのメディアに取り上げられた注[2]。これも古典籍の画像データをいかに現代に活かすか、というデータベースの機能強化としての異分野連携研究(研究開発系共同研究)の成果の一つであった。原理検証段階のリリースであり、80%の精度という点でも様々にご意見が寄せられた。中にはそれで役に立つのかという辛辣なご意見もあった。しかし、ここで考えていただきたい。古典文学研究者にとっては、古典籍は読む対象であるが、他の分野の研究者にとっては読めない古い書物群(材料)であり、その読めないことが一つの課題として現代において研究対象になり得るのだということを。今回の取り組みにはワードスポッティングという技術が用いられている。まだ文字認識されていない典籍画像データから、自分の求める言葉の画像と似ている画像を探しだす。つまりその言葉を持ち合わせた他の典籍画像を、一定の処理をすれば機械が「発見」するのである。古典籍画像の中に眠っている多彩な情報を自在に取り出し、新たな研究の創成を目指すことも、それほど遠くない将来に可能となろう。こうした研究を継続し続け、そこで生じた課題を解決していくことが何よりも重要なことではないか。始めなければ、生み出すことなどあり得ないのだから。

 画像データの利活用を進めるため、研究開発系共同研究分野において、本年、国立情報学研究所との協力体制を構築した。他にも一橋大学・慶應大学、立命館大学、産業界などとも連携し研究を進めている。本事業は将来を見据えたものである。当初は実験的に公開することを想定し、その上で改良点を探り、実装へと展開していくことになるだろう。先の新方式OCR技術も古典籍のテキスト化を目指す原理検証の一つであったが、その利活用の方策はこれからの課題でもある。

●検索機能の充実に向けて
 データの蓄積とその活用が思いも寄らない発見を導き出すには、今後、検索機能の充実が不可欠である。現状では、古典籍の画像公開であり、資料の検索という点において工夫が必要となる。古典籍画像へのアノテーション付与注[3]にも既に国文研教員であたっており、異分野融合研究を促進する上で、他分野のタグ付けのためのワーキンググループも立ち上げ(医学・和算分野)、現在どのような言葉へのタグが有効かといった協議を進めている。提供システムでは、ソーシャルタギング注[4]を段階的に導入しようと検討している。古典籍を用いる多くの研究者、研究機関等にとって有用となるであろうこうした取り組みや技術開発を可能な限り進めていきたいし、協力もお願いしたい。そうした意味からも、本年六月、日本近世文学会内に「日本語の歴史的典籍プロジェクト連携委員会」が設置されたことは特筆すべきことだ。本事業は、研究者、研究者コミュニティがあって始めて成り立つものであり、現在、国文研と学会との間で覚書を取り交わすべく具体的な調整を行っている。今後、こうした協力体制構築(ならびに協議のありかた)を模範とし、多方面に拡大したいと考えている。

 本事業の取り組みはセンターニューズ・レター「ふみ」を始め注[5]、HP等で発信しており、ご覧いただければ幸いである注[6]。研究成果報告の機会として、本年度より日本語の歴史的典籍国際研究集会がスタートし、七月三十一日・八月一日には第一回「可能性としての日本古典籍」を実施し、多くの研究者に参加いただいた。この研究集会は毎年この時期に実施予定であり、今後、一部動画での配信も計画している。

●「国文研古典籍データセット」の公開
 最後に宣伝を少々。古典籍を用いて何ができるのか、そのことを日本文学研究者だけではなく情報系など多くの研究者に問いかけるためには、何よりもその素材を提供することが必要となる。今般、国立情報学研究所の協力を得て、試行的に国文研の所蔵する三五〇点の古典籍全冊(約六万三千コマ)の画像データ、書誌データ(一部テキストデータ等含む)を「情報学研究データリポジトリ(IDR)」から、「国文研古典籍データセット」として十一月十日より公開した注[7]。一例を紹介するならば、源氏物語、二十一代集、詩林良材、百人一首一夕話、画本虫撰、狂文宝合之記、養蚕秘録、群蝶画英、古今茶湯諸抄大成、豆腐百珍、能の本、料理通、勢免天話草、武徳編年集成、本朝武林伝、医案類語、医心方、本草綱目啓蒙、国産考、紙漉重宝記、農業全書、落穂集、武鑑類などである。クリエイティブ・コモンズ表示―継承4.0国際ライセンス(CC BY-SA)での提供であり、この条件に同意される方ならば国文研に断ることなくどなたでもご利用頂ける注[8]。また、この古典籍データをどう活用できるかについて、グループ単位でアイデアを出し合い、それをまとめていく参加型のイベント「歴史的典籍オープンデータワークショップ(アイデアソン)」も京都(十二月十八日)を皮切りに複数回実施していく予定である。こんなことが出来たらという思いを、他の分野の研究者が実体にし叶えてくれることを、この事業に携わり幾度となく経験してきた。イベントでのご意見を踏まえ、進化し続ける基盤構築を目指したいと切に願うばかりである。


[1]http://base1.nijl.ac.jp/koten_list/search/?bshubetsu=M 平成28年2月より変更予定。
[2]http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html
[3]あるデータに対して関連する情報(メタデータ)を注釈として付与すること。タグなど。
[4]WEB上で公開されたコンテンツに対し、利用者が「タグ」を付与し、共有できる仕組み。
[5]http://www.nijl.ac.jp/pages/cijproject/newsletter_fumi_new.html
[6]他にも「情報と科学と技術」65巻4号に「国文学研究資料館:日本語の歴史的典籍のデータベース構築について」という論文がオープンアクセスで掲載されている。http://ci.nii.ac.jp/naid/110009923167
[7]http://www.nii.ac.jp/dsc/idr/nijl/nijl.html 国文研プロジェクトHPからもアクセス可。http://www.nijl.ac.jp/pages/cijproject/
[8]http://creativecommons.jp/licenses/ CCライセンスとは、作品を公開するものが「この条件を守れば作品を自由に使って構いません。」という意思表示をするためのツール。CC BY-SAの場合、国文研所蔵であることを表示し、改変した場合でも元の作品と同じCCライセンス(このライセンス)での公開することが主な条件。