このページの本文へ
ここから本文です

「風景」と「光景」の違いは? 国立国語研が大量の日本語データ公開

2007年5月29日 9時38分

国立国語研究所は2007年5月28日、約1000万語分の日本語の書き言葉データをインターネット上で試験公開したと発表した。各省庁が刊行した白書のデータ(約500万語分)と、ヤフーのQ&A情報サイト「Yahoo!知恵袋」に投稿されたデータ(約500万語分)から成る。こうした大量の言語データは「コーパス」と呼ばれ、言語にまつわる研究開発で活用されている。同研究所は現在、「現代日本語書き言葉均衡コーパス」と呼ぶ大規模コーパスの構築を進めており、今回公開したのはその一部。研究者に限らず誰でも無償で検索、閲覧が可能だ。「“風景”と“光景”など、辞書では違いが分かりにくい言葉でも、大量の用例を見ればすぐ分かる」(研究開発部門の前川喜久雄言語資源グループ長)など、一般の人にとっても、日本語の使われ方を知るうえで便利なデータとなりそうだ。

コーパスは、日本語学や日本語教育はもちろん、自然言語処理のように情報科学分野の技術開発においても重要な役割を果たしている。ただこうした研究開発で有用に利用するには、さまざまなジャンルのデータを偏りなく収集したデータ、いわゆる「均衡コーパス」である必要がある。日本は、英語圏や韓国などと比較しても均衡コーパスの整備が遅れていたが、2006年に現代日本語書き言葉均衡コーパスの構築を開始した。ここ数年に出版された書籍や雑誌、新聞のデータ(3500万語)に加え、特に広く流通したとみられるデータとして、東京都の13自治体以上の図書館に収蔵されている書籍データ(3000万語)、さらにインターネット上の文書や白書、国会会議録などの特定目的のデータ(3500万語)を収集。2011年に、1億語を超えるコーパスとして完成する予定だ。

ここから下は、関連記事一覧などです。画面先頭に戻る ホームページへ戻る

記事検索 オプション

SPECIAL

日経BP社の書籍購入や雑誌の定期購読は、便利な日経BP書店で。オンラインで24時間承っています。

ご案内 nikkei BPnetでは、Internet Explorer 6以降、 Safari 2以降、Opera 8以降、Netscape 8.1以降またはHTML 4.01/CSS level 1, 2をサポートしたWebブラウザでの閲覧をお勧めしております。このメッセージが表示されているサポート外のブラウザをご利用の方も、できる限り本文を読めるように配慮していますが、表示される画面デザインや動作が異なったり、画面が乱れたりする場合があります。あらかじめご了承ください。

本文へ戻る