ビジネスイノベーターは、nikkeibp.jpビジネススタイルに変わりました。こちらをクリック。

ビジネス イノベータートップへ

ーーー
編集部からのお知らせ

ーーー
連載企画
「IT」と「環境」
まれる心、
企業生き残りの代償


境生活のススメ

塊消費動向研究所
--シニアを“生かす”
ビジネスの可能性


門「近自然学」
〜豊かさと環境の
両立は可能だ


"ビジネス基礎力"向上計画
〜ワンランク上の
プロを目指す


"会社"に頼らない生き方を探れ!

代リスクの基礎知識

「環境」を考える
(日経エコロジー)


ーーー
日経ビズテック創刊!
雑誌関連のお知らせ

ラム・ショーケース

島の眼

ーーー
今週の市場データ

ーーー
読者から
 (Reader's Opinion)

ーーー
仕事の本棚

ーーー
オフタイム・クリエーター
新ワークスタイル研究

出張、リデザイン

充実空間


ーーー
from nikkeibp.jp 倶楽部

ーーー
アーカイブ

ーーー

お問い合わせ

ビジネス イノベーター
spacer
nikkeibp.jp

テクノロジ解説
プロフィール
第13回  音声認識技術で"声"を活用する

2003/07/22

著者近影
著者の西村雅史氏
 音声認識にはすでに50年以上の研究の歴史があります。長い間、音響的な側面からの研究が中心でしたが、近年になって言語情報を統合利用することで大きな進化を遂げました。数年前、巷で話題になったディクテーション・ソフトは、まさにこの成果を生かしたものです。

 音声認識は音響的な情報だけでなく言語知識を利用する段階に入り、人間に一歩近づいたと言えます。さらに人間の能力に近づけるため視覚情報を利用しようとする動きもあります。唇や顎の動きといった画像情報をうまく使うと、劣悪な雑音環境下でも人間と同等以上の精度で音声認識が実現でき、誤動作も減らすことができます。

 IBMリサーチでは“スーパーヒューマン”プロジェクトを推進していますが、そのゴールはあらゆる状況で、カスタマイズなしに、人間を上回る性能を出す音声認識技術の開発です。サービスセンターへの電話、ミーティング、議会、法廷、テレビ、ラジオなど、音声を含むありとあらゆる情報を正確に書き起こす技術を開発し、それをデータ・マイニングやセキュリティなど種々の場面で活用しようというねらいがあります。

 このように音声認識技術は日々着実に進歩しています。しかし、まだ成熟した技術だとは言えません。現在の音声認識は、ニュース音声の自動書き起こしなど、すでに人間の能力を超えた性能を示す場合もある反面、まだ多くの場面で人間の能力に遠く及びません。現状の音声認識の状況を数年前のインターネット技術にたとえる人もいます。それだけ将来において重要な技術だと見られているのです。

 音声認識技術の能力と限界を理解した上で、今後この技術が活用できそうな場面を考えてみましょう。

声でシステムを操作する

 これは古くからの音声認識の応用分野です。携帯電話のダイアラー、カーナビの操作など、基本的には「ユーザーにとって代替インターフェースがかならずしも便利でないと想定される場合」に用いられています。電話自動応答システムなどでも選択項目が多く、プッシュホンではどうしても操作が煩雑になるような場合には有効です。

 ここで問題となるのは、これらの実用システムの多くは音声認識以外の手段を主な入力手段として設計されているということです。認識精度が100%ではない現状では、確実性という観点から他の入力手段に比較して見劣りします。ユーザーにとってその欠点を補うにあまりあるメリットが他で見いだせるかどうかが真に音声認識が役に立つかの判断基準になります。

 たとえば、カーナビならば、音声を使えば走行中でも合法的に操作が可能という点は大きなメリットかもしれません。さらにタッチパネルやカーソルキーを使う場合はメニューをたどるのが基本操作となりますが、階層メニューをいちいちたどることなくメニューの末端にあるショートカットコマンドを直接入力できれば入力速度の観点からは音声入力が断然有利になります。

 しかし、これらの利点を享受するにはシステムが用意したコマンド名などを正確に暗記しなければならず、多くのユーザーにとって必ずしも使い勝手がいいものとは言えません。

 たとえば、カーナビの目的地を設定するとき、「目的地、渋谷」というのか「渋谷を目的地に設定」というのか、はたまた「渋谷に行く」というのかといった具合です。

 このように現状の音声操作系のシステムでは、人間の方が認識システムの能力を十分に把握し、それに合わせてやる必要があるのですが、これでは音声認識の魅力が半減します。そこで、このような制約を取り除くための改良がつづいています。NLU(Natural Language Understanding:自然言語理解)と呼ばれている技術もその一つです。

声を理解する

 コマンドが少なければ覚えるのも容易ですが、現在のカーナビのように機能が豊富になると対応するコマンドの数も半端ではありません。一方、システム設計者にとっても、これらの発話のバリエーションをすべて受理できるようにあらかじめ文法を設計しておくことは不可能です。コマンドを正確に覚えていなくても、そしてまた、少しくらいは曖昧にしゃべったとしてもその内容を理解し、不足している情報があればそれを見つけて問い直すことでユーザーの負担を減らそうというのがこのNLUの目的です。

 あらかじめ登録した単語を音響的に抽出する「キーワード・スポッテイング」という技術をベースにしている場合もありますが、この方法ではあまり複雑なことはできません。

 一方、IBMのNLUシステムでは、ディクテーション・ソフトで用いられた最新の音声認識技術によって発話内容を正確に書き起こし、それを構文解析し、目的地や、指示内容といった情報を正確に抽出するという手順をとります。この結果、「声でシステムを操作する」場合に用いられている既存の音声認識に比べ、発話の自由度は圧倒的に高まります。たとえば、

「えっと、先に渋谷によってから箱崎に行きたいんだけど、案内してくれる?」

といった要求にも応えることができるようになります。まだ限られた場面のことしか理解できませんが、この点でも少しだけ人間に近づいたと言えるでしょう。

 この例で示したように、日本では将来のテレマティックス関連分野への応用において議論されることが多い音声認識ですが、アメリカでは電話の自動応答システムや、種々の情報を電話で提供する音声ポータルサービスが急速に普及しており、これらの中でNLUに代表される高度な音声認識技術が用いられるケースが増えています。

 一方、i-modeといった携帯端末からのインターネット接続サービスがすでに広く普及している日本で同様の電話サービスが定着するかどうかはまだ分かりません。しかし、少なくとも単にプッシュホンを音声で置き換えただけの自動応答システムでは限界が見えています。

声に含まれる情報を検索する

 これは、声で直接何かをしようというわけではなく、声に含まれる情報を効率よく取り出すために音声認識を使おうというものです。IBMが進めている“スーパーヒューマン”プロジェクトも、主な目的はここにあります。

 この連載の第9回で大量のテキスト・データから有益な情報を見つけだす「テキスト・マイニング」技術の紹介がありましたが、世の中にあふれているデータはテキストだけではありません。電子メールが広く普及した今でも“声”は人間にとってもっとも簡便なコミュニケーション手段であり、まだ重要な情報の多くは音声でやりとりされているのが事実です。ただ、音声というデータはテキストのように短時間で概観することができません。内容を確認するのに意外に手間と時間がかかるのです。

 たとえばコールセンターで行われた顧客とオペレーターの対話の中には経営に役立つ重要な情報がたくさん含まれているはずですが、その情報は膨大で、索引なしにすべてを聞き直すことはあまりに非効率です。ディクテーション・ソフトで用いられた音声認識技術を使えば音声を単にテキストデータに変換するだけでなく、音声にテキストの索引をつけることが可能になります。この技術を「オーディオ・インデキシング」あるいは「オーディオ・マイニング」と呼んでいます。

 また、各話者の音声が独立したチャンネルで録音されている場合は言うに及ばず、ミキシング録音されている場合でも発話が完全に重なってさえいなければ発声区間毎に話者を認識する技術もあります。たとえば議会での応用を考えると、ある特定の議員の発言だけをまとめて聞くといったことも可能になります。

 マルチメディアのデータについても同様です。音声認識の結果を索引として利用することで、これまで困難であった画像データなどへの索引付けも容易に行うことができるのです。

 課題は認識精度です。精度は個々のケースによるので何とも言えませんが、認識率を大きく左右する要因でもっとも大きなものは雑音です。そのほか、発声の丁寧さ、方言などがあげられます。電話などの帯域制限、CPUやメモリーといった計算機資源の制限も認識率に影響します。

 現状では、発話者の認識も含めて、95%以上の精度を出せるケースもあれば、50%以下のケースもあります。精度が十分高い場合はテキスト・マイニング技術と併用することもできるでしょう。一方、私の過去の経験に照らしてあえて数値を挙げるなら、文字誤り率(文字の挿入、削除、置換という3種類の誤りの合計が総入力文字数に占める割合)が30%以下であれば索引としての利用価値は十分にあるようです。

音声認識の今後

 音声認識システムの基本能力は毎年改善されており、いろいろな場面で徐々に人間の能力に近づいています。人間もそうであるように、何年待っても誤りが0になるということはありえませんが、去年まではまだ無理だと思われていた分野への応用が、最新の技術を使えばうまくいくといったケースは多々あります。特に今後はコールセンターでの着信の自動振り分けやオーディオ・マイニングといった応用に期待がもてそうです。

 また、VoiceXMLやX+V (XHTML+VoiceXML)などの標準化も進み、対話アプリケーションの開発もかなり容易になってきました。未熟な技術ゆえにまだ手間のかかる部分はありますが、以前ならば音声が使えるということだけで優位性があるように見えたアプリケーションにも、今後は本当の意味での使いやすさが求められるようになるでしょう。

(西村 雅史/日本IBM東京基礎研究所 主席研究員)

西村 雅史

1983年大阪大学大学院博士前期課程修了。同年日本IBM入社。以来、東京基礎研究所において大語彙音声認識手法の研究に従事。1993年よりディクテーション・システムの研究開発に参画し、1996年離散単語発声のVoiceType Dictation、1997年連続発声を可能にしたViaVoiceを開発。工学博士。1998年情報処理学会山下記念研究賞、1999年日本音響学会技術開発賞受賞。現在は雑音下ハンズフリー音声認識ならびに次世代テキスト音声合成の研究開発などを担当している。
バックナンバー
■第21回[2003/9/22]
・XMLを使った高度な情報管理

■第20回[2003/9/16]
・オープンなWebサービスでの安全性

■第19回[2003/9/9]
・システム全体の安全を確保する

■第18回[2003/9/2]
・問題の所在を明らかにする--複雑なシステムの問題判別技術

■第17回[2003/8/26]
・ThinkPadとオートノミック・パーソナル・コンピューティング

■第16回[2003/8/19]
・自律的に動くコンピュータ

■第15回[2003/8/5]
・最適化技術でビジネスの効率を上げる

■第14回[2003/7/29]
・大量のデータを効率的に配信する

■第13回[2003/7/22]
・音声認識技術で"声"を活用する

■第12回[2003/7/15]
・「使いやすさ」を追求するには

■第11回[2003/7/8]
・ユビキタス時代のID技術(その2)

■第10回[2003/7/1]
・ユビキタス時代のID技術(その1)

■第9回[2003/6/24]
・データの洪水から何かを見つけ出す

■第8回[2003/6/17]
・進化する分散処理

■第7回[2003/6/10]
・ビジネスにおけるグリッドの真価

■第6回[2003/6/3]
・グリッド・コンピューティングとは?

■第5回[2003/5/27]
・エージェント技術でモバイルサービスの領域を広げる

■第4回[2003/5/20]
・Webサービス

■第3回[2003/5/13]
・データ構造を把握する

■第2回[2003/5/6]
・ビジネス・プロセスをはっきりさせる

■第1回[2003/4/25]
・オンデマンドへのビジネス変革を支えるITシステムとは


日経BP社 www.nikkeibp.co.jp

サービスよくあるご質問 | 記事に関するお問い合わせ
会社案内日経BP社案内 | プライバシーポリシー | 著作権・リンクについて | 広告ガイド
© 2005 Nikkei Business Publications, Inc. All Rights Reserved.