« 松本和也編『テクスト分析入門 小説を分析的に読むための実践ガイド』(ひつじ書房) | メイン | 日本比較文学会 関西支部・第52回関西大会(2016年11月12日(土)、甲南大学 第8号館) »

2016年11月 1日

 記事のカテゴリー : リポート笠間掲載コンテンツ

●文化資源のデジタルデータ流通に突きつけられた課題 ―国文学研究資料館のオープンデータ公開と永崎研宣氏による公開から考える[後藤 真(国立歴史民俗博物館 研究部准教授)]

このエントリーをはてなブックマークに追加 Clip to Evernote Share on Tumblr LINEで送る

文化資源のデジタルデータ流通に突きつけられた課題
―国文学研究資料館のオープンデータ公開と永崎研宣氏による公開から考える

後藤 真(国立歴史民俗博物館 研究部准教授)


■国文学研究資料館のオープンデータが可能にした、永崎研宣氏のIIIF対応画像公開
2016年10月に人文情報学研究所の永崎研宣氏が国文学研究資料館・館蔵和古書画像19451点の画像をIIIF対応にして、閲覧可能とした。

http://kasamashoin.jp/2016/10/post_3782.html

Mirador2.1はスタンフォード大学図書館と、ハーバード大学のメンバーを中心としたプロジェクトによって作られたIIIF対応ビューアである。マニフェストURLを入力することで、IIIF対応にされた画像セットであれば機関や組織に関わらず画像閲覧が可能である(なので、国文研だけではなく、IIIF対応諸機関のものを同時に見ることができる)。そして、複数の画像を比較して見ることもできるので、国文研のA本とB本、国文研のA本と他機関のC本、国文研のA本のaページとbページなどの比較も可能なのである。さらに、画像にタグを付けることも可能となる(保存先はデフォルトではローカルになるがサーバに保存して共有できるように設定することもできる)。タグは矩形・円形のみならず多角形やフリーハンドでのタグ付けも可能である。このように非常に高機能なビューアで閲覧することが可能になった。

IIIFに対応したということは、もちろんMirador以外のさまざまなビューアで閲覧することが可能となったということでもある。Mirador以外にもさまざまなビューアがあるので、詳しい方はさまざまな実験を行っていただきたい。

このような環境がなぜ可能になったのか。それは国文学研究資料館がこれらの画像セットをオープンデータ(CC BY-SA4.0)として公開したためである(http://base1.nijl.ac.jp/~tkoten/)。

■外部のサービスで画像が見やすくなったことの意味―文化資源のデジタル化全体の文脈で考える
つまり、国文学研究資料館「以外のサイト」で画像閲覧を可能としたのである。そのため、通常のJPEG画像でしかなかった画像セットをIIIF対応に加工し、国文研以外のサーバで提供可能にして、この仕組みを可能とした。
結果としてこの評判は大変によく笠間書院のTwitterでも「従来より格段に見やすくなり、非常に便利です! 」と評価をしている。

このツイートは非常に示唆的である。国文研のシステムに比べて、このビューアが「見やすくな」ったということは、言い換えれば国文研のシステムには「課題がある」ということでもある。それを解決したのがこの外部のサービスで提供された(それも、ユーザインターフェースだけではなく、画像そのものの配信から別のサーバから発信されている)ものなのだ。オープンデータ化した効能が、強く発揮された好例である。

また、文化資源のデジタル化全体の文脈で考えると、この仕事は資料を社会に出していく機関と「開発者」との新たな関係を導き出すための重要な一歩であるといえる。すなわち国文研がデータを提供し、他者がシステムを構築する、もしくはマッシュアップするという関係である。

むろん、これに先立つものとして、同じく国文学研究資料館のオープンデータセット(http://www.nii.ac.jp/dsc/idr/nijl/nijl.html)を活用したものがある。こちらも関係としては同様であり、大量のデータセットを手元で分析に使えるという点で非常に価値が高い。
ただ、この両者には違いがある。国文学研究資料館オープンデータセットのIIIF対応公開の場合には、リポジトリでの公開であり、国文研ではビューアとして(少なくとも今は)提供していないものについて、永崎氏がWeb上のビューアでみられるようにしたものである。一方、今回の画像公開では「国文研のシステムによるビューアと、永崎氏によるIIIFビューアが併存している」のが特徴である。

■突き付けられる「どのようなデータ提供をするのが最も妥当か」という課題
この両方の取り組みについて、国文学研究資料館と同じ大学共同利用機関法人に所属するものの立場として考えてみたい(もちろん、組織の見解ではない)。これは、大学共同利用機関法人が「どのようなデータ提供をするのが最も妥当か」という課題を突きつけられたともいえる。ユーザインターフェース周りにコストをかける「税金を使うことの妥当性」の議論にもつながりうる。今までは、機関がデータを持ち、検索システムを提供し、ユーザインターフェースを作っていた。この一連の作業の中で機関が「どの部分を担うべきか」の考え方すら変えうるものになるのである。もっとも極端に振った考え方としては、ユーザインターフェースの開発をやめ、リポジトリでのデータ提供を基本モデルにすることすら考えうる。それによって、ユーザインタフェースにかけるコストを、デジタル化の行為そのものに振りむけるという発想である。IIIFビューアの多くはGitHub(Gitと呼ばれるプロジェクトやプログラムのバージョンを管理するツールを、ホスティングするサービス)で公開されており、複数の人物による開発が許容されている(例:Mirador以外にはUniversal Viewerというビューアなどもある。Universal Viewer https://github.com/UniversalViewer/universalviewer)。ここに提供側機関の研究者が参画し、マッシュアップしたものを機関内に取り込むなど、今までと違う貢献とシステム導入のルート形成も考えうる。

これらのことは、オープンデータの可能性の文脈内で議論されていたが、それが現実のものになったのである。
一方、他者のマッシュアップは、「機関のミッション」とは異なるものであるため、組織として「見せなければならない画像」の表示を放棄することはできないというジレンマも生じる。画像を提供する際に、どこまでユーザに便宜を提供しなければならないかは悩ましい(「もっと見やすいものは自分で探すなり作るなりしてください」と突き放すことが人文系の共同利用機関としてどこまで妥当なのだろうか。マッシュアップ後のリンクを貼るぐらいは可能かもしれないが)。また、より便利なビューアそのものの作成が、外部評価に関わるのも事実である。そして、他者のデータ提供には持続性を求めることもできないが、機関はデータを持続的に出す使命があるし、あるべきである(もちろん、自機関が持続的かという問題もあるし、自機関のデータの持続性の保証があるわけではない。また自機関が消滅後も第三者がデータを救ってくれることもあるであろう。しかし、機関が存在する限りは「使命」だとは考えたい)。この「使命」と機能と評価を今後どのように再構築していくかが求められていくことになるであろう。

大学共同利用機関法人が、「共同利用」のためにデータを出し、社会に貢献していくことはより強く求められている。国立歴史民俗博物館も2016年度より開始した「総合資料学の創成」というプロジェクト(http://www.metaresource.jp/)の中で、研究資源・モノ資料の共同利用のためのデータ提供の検討を行っている。今後はデータを見せることについて外部と内部の切り分けと、より機械可読性の高いシステム構築が求められる。そして、より多くの機関やプロジェクトとの連携を行い、全体としてデータを流通させるしくみが求められる。その実際的な一歩を、この国文研データセットのIIIF公開は示したものであるといえる。

執筆者プロフィール
後藤 真(国立歴史民俗博物館 研究部准教授)
人文情報学・情報歴史学・総合資料学。著書に『情報歴史学入門』(共編著、金寿堂出版)、『アーカイブのつくりかた』(分担執筆、勉誠出版)など。


●グーグル提供広告