「風景」と「光景」の違いは? 国立国語研が大量の日本語データ公開
国立国語研究所は2007年5月28日、約1000万語分の日本語の書き言葉データをインターネット上で試験公開したと発表した。各省庁が刊行した白書のデータ(約500万語分)と、ヤフーのQ&A情報サイト「Yahoo!知恵袋」に投稿されたデータ(約500万語分)から成る。こうした大量の言語データは「コーパス」と呼ばれ、言語にまつわる研究開発で活用されている。同研究所は現在、「現代日本語書き言葉均衡コーパス」と呼ぶ大規模コーパスの構築を進めており、今回公開したのはその一部。研究者に限らず誰でも無償で検索、閲覧が可能だ。「“風景”と“光景”など、辞書では違いが分かりにくい言葉でも、大量の用例を見ればすぐ分かる」(研究開発部門の前川喜久雄言語資源グループ長)など、一般の人にとっても、日本語の使われ方を知るうえで便利なデータとなりそうだ。
コーパスは、日本語学や日本語教育はもちろん、自然言語処理のように情報科学分野の技術開発においても重要な役割を果たしている。ただこうした研究開発で有用に利用するには、さまざまなジャンルのデータを偏りなく収集したデータ、いわゆる「均衡コーパス」である必要がある。日本は、英語圏や韓国などと比較しても均衡コーパスの整備が遅れていたが、2006年に現代日本語書き言葉均衡コーパスの構築を開始した。ここ数年に出版された書籍や雑誌、新聞のデータ(3500万語)に加え、特に広く流通したとみられるデータとして、東京都の13自治体以上の図書館に収蔵されている書籍データ(3000万語)、さらにインターネット上の文書や白書、国会会議録などの特定目的のデータ(3500万語)を収集。2011年に、1億語を超えるコーパスとして完成する予定だ。
詳細は、PC onlineの記事本文をご覧ください。
昨日読まれたベスト5〈IT〉 最新記事一覧へ 画面先頭に戻る
- スルガ銀と日本IBMの「動かないコンピュータ」訴訟、要件定義を3回繰り返す(2008/04/25)
- 2001年にググったら? 創立10周年の米グーグルが特設サイトを開設(2008/10/01)
- 思考停止というリスク(2008/10/03)
- 「しまった!」と思う瞬間ランキング(2008/10/03)
- TVバンク、プロ野球の生中継で過去最高の同時視聴者と総視聴者を記録(2008/10/03)
IT 最新記事 記事ランキング一覧に戻る 画面先頭に戻る
- コンサル会社がiPhoneを1000台導入、国内法人で初の大口契約 (15:30)
- バーチャルコミュニケーションズがWebサイト統制SaaSに新版、レポートを強化 (15:28)
- Windowsはどうやって起動しているのか? (15:17)
- 次世代データセンター、SaaSやグリーンIT化の中核基地に (15:16)
- SAPジャパンCEO、突如交代の真相 (15:16)
- クラウドの台頭は本物か (15:14)
- 目玉調査企画の準備に苦戦 (15:12)
- 地デジラジオでサイマル放送を開始した在京AM放送3社の狙い (15:10)
- Androidや次世代PHSをいち早く体験,人体や可視光を使った通信も (15:10)
- SNS「炎上から足あと事件簿まで」、興隆時代の落とし穴 (15:10)



