« 2016(平成28)年度 昭和文学会 第59回研究集会(2016年12月10日(土)午後1時30分より、東京学芸大学 C棟(中央講義棟)302・203教室) | メイン | 日本近世文学会がTwitter、facebookを開始 »

2016年11月17日

 記事のカテゴリー : ホームページ紹介

●国文学研究資料館が、日本古典籍字形データセット 8万字を公開

このエントリーをはてなブックマークに追加 Clip to Evernote Share on Tumblr LINEで送る

【デジタル化された当館所蔵古典籍の翻刻過程で生まれる文字の情報を提供します。
1文字づつの画像、文字座標データなどを1セットにして提供しますので、古典籍に書かれた文字の機械学習用データなどへの活用、そしてくずし字解読の効率化などが期待されます。】
つづきは以下。
http://www.nijl.ac.jp/pages/cijproject/data_set_list.html

○プレスリリースはこちら
http://www.nijl.ac.jp/pages/cijproject/images/20161117_news.pdf

○日本古典籍字形データセット(人文学オープンデータ共同利用センター準備室)
http://codh.rois.ac.jp/char-shape/

《データ数》
以下8点の資料に書かれた86,176文字
「当世料理」 「万宝料理秘密箱 」 「膳部料理抄」 「料理物語」 「日用惣菜俎不時珍客即席庖丁」 「料理方心得之事」 「新編異国料理」 「料理秘伝抄」
《データ概要》
原本補正画像データ:日本古典籍データセットで公開する画像に対して、翻刻作業を容易にするための前処理として、見開き画像を分離するとともに、回転させて正立させる という処理を加えた画像です。
文字座標データ:原本補正画像データ上で文字を取り囲む長方形の座標(XYWH)、文字のUnicodeコードポイント、ブロックID、文字IDを記録したものです。
字形画像データ:「原本補正画像データ」に「文字座標データ」を適用して切り抜いた画像であり、文字種ごとに字形を閲覧しやすくするために提供するものです。
作業報告文書:作業で読めなかった文字に関する情報や、その他の注意事項を記したドキュメントです。


●グーグル提供広告