『現代日本語書き言葉均衡コーパス』デモ版公開

【このサイトでは大学共同利用機関法人人間文化研究機構国立国語研究所と文部科学省科学研究費特定領域研究「日本語コーパス」プロジェクトが共同で開発した『現代日本語書き言葉均衡コーパス』(BCCWJ:Balanced Corpus of Contemporary Written Japanese)のデータを検索できます。BCCWJには、現代の日本語の書き言葉の全体像を把握できるように集められたサンプルが約1億語収録されています。
本サイトで可能な検索は文字列検索(全文検索)だけですが、平成23年夏には形態論情報(形態素解析情報)を利用した検索サイトを開設する予定です。また、同じ時期にデータ全体をDVD等で公開する予定もあります。
コーパスの構築にあたっては、全サンプルについて著作権処理を実施しており、その結果、権利者の方から利用を拒否されたサンプルは公開対象から除外してあります。】とのこと。
以下、公式サイトです。

http://www.kotonoha.gr.jp/demo/