TOPPAN ニュースリリース「凸版印刷、江戸期以前のくずし字を高精度でテキストデータ化する新方式OCR技術を開発 ~江戸期以前のくずし字が80%以上の精度でOCR処理可能に~」【ロバート キャンベル氏、今西祐一郎氏のコメントあり】

【凸版印刷株式会社(本社:東京都千代田区、代表取締役社長:金子眞吾、以下 凸版印刷)は、江戸期以前のくずし字で記されている古典籍(内容・形態の優れた古い書物のこと)の文字を判別し、テキストデータ化するOCR(光学文字認識)技術を開発しました。凸版印刷は、本技術による古典籍のテキストデータ化サービスを2015年夏より試験的に開始予定です。
 本技術は、江戸期以前の書物に使われているくずし字を自動で判読し、テキストデータ化することを可能にするものです。凸版印刷は、2013年からさまざまな書籍を高い精度でテキストデータ化する「高精度全文テキスト化サービス」を提供しています。このサービスで確立したテキストデータ化技術のシステム基盤をベースに、公立学校法人公立はこだて未来大学(所在地:北海道函館市、学長:中島秀之)の寺沢憲吾准教授が開発した「文書画像検索システム」と組み合わせることで、くずし字で記されている古典籍のOCR処理を実現しました。】
つづきはこちらから。TOPPAN。
http://www.toppan.co.jp/news/2015/07/newsrelease150703_2.html
参考
函館市中央図書館の「文書画像検索システム」。 ※テキストではなく画像のままで全文検索ができる。
http://records.c.fun.ac.jp
「文書画像の認識と理解」(公立はこだて未来大学准教授・寺沢憲吾)
http://www.nijl.ac.jp/pages/cijproject/images/fumi_4.pdf
※このPDF6頁目