 |
| 著者の西村雅史氏 |
音声認識にはすでに50年以上の研究の歴史があります。長い間、音響的な側面からの研究が中心でしたが、近年になって言語情報を統合利用することで大きな進化を遂げました。数年前、巷で話題になったディクテーション・ソフトは、まさにこの成果を生かしたものです。
音声認識は音響的な情報だけでなく言語知識を利用する段階に入り、人間に一歩近づいたと言えます。さらに人間の能力に近づけるため視覚情報を利用しようとする動きもあります。唇や顎の動きといった画像情報をうまく使うと、劣悪な雑音環境下でも人間と同等以上の精度で音声認識が実現でき、誤動作も減らすことができます。
IBMリサーチでは“スーパーヒューマン”プロジェクトを推進していますが、そのゴールはあらゆる状況で、カスタマイズなしに、人間を上回る性能を出す音声認識技術の開発です。サービスセンターへの電話、ミーティング、議会、法廷、テレビ、ラジオなど、音声を含むありとあらゆる情報を正確に書き起こす技術を開発し、それをデータ・マイニングやセキュリティなど種々の場面で活用しようというねらいがあります。
このように音声認識技術は日々着実に進歩しています。しかし、まだ成熟した技術だとは言えません。現在の音声認識は、ニュース音声の自動書き起こしなど、すでに人間の能力を超えた性能を示す場合もある反面、まだ多くの場面で人間の能力に遠く及びません。現状の音声認識の状況を数年前のインターネット技術にたとえる人もいます。それだけ将来において重要な技術だと見られているのです。
音声認識技術の能力と限界を理解した上で、今後この技術が活用できそうな場面を考えてみましょう。
声でシステムを操作する
これは古くからの音声認識の応用分野です。携帯電話のダイアラー、カーナビの操作など、基本的には「ユーザーにとって代替インターフェースがかならずしも便利でないと想定される場合」に用いられています。電話自動応答システムなどでも選択項目が多く、プッシュホンではどうしても操作が煩雑になるような場合には有効です。
ここで問題となるのは、これらの実用システムの多くは音声認識以外の手段を主な入力手段として設計されているということです。認識精度が100%ではない現状では、確実性という観点から他の入力手段に比較して見劣りします。ユーザーにとってその欠点を補うにあまりあるメリットが他で見いだせるかどうかが真に音声認識が役に立つかの判断基準になります。
たとえば、カーナビならば、音声を使えば走行中でも合法的に操作が可能という点は大きなメリットかもしれません。さらにタッチパネルやカーソルキーを使う場合はメニューをたどるのが基本操作となりますが、階層メニューをいちいちたどることなくメニューの末端にあるショートカットコマンドを直接入力できれば入力速度の観点からは音声入力が断然有利になります。
しかし、これらの利点を享受するにはシステムが用意したコマンド名などを正確に暗記しなければならず、多くのユーザーにとって必ずしも使い勝手がいいものとは言えません。
たとえば、カーナビの目的地を設定するとき、「目的地、渋谷」というのか「渋谷を目的地に設定」というのか、はたまた「渋谷に行く」というのかといった具合です。
このように現状の音声操作系のシステムでは、人間の方が認識システムの能力を十分に把握し、それに合わせてやる必要があるのですが、これでは音声認識の魅力が半減します。そこで、このような制約を取り除くための改良がつづいています。NLU(Natural Language Understanding:自然言語理解)と呼ばれている技術もその一つです。
声を理解する
コマンドが少なければ覚えるのも容易ですが、現在のカーナビのように機能が豊富になると対応するコマンドの数も半端ではありません。一方、システム設計者にとっても、これらの発話のバリエーションをすべて受理できるようにあらかじめ文法を設計しておくことは不可能です。コマンドを正確に覚えていなくても、そしてまた、少しくらいは曖昧にしゃべったとしてもその内容を理解し、不足している情報があればそれを見つけて問い直すことでユーザーの負担を減らそうというのがこのNLUの目的です。
あらかじめ登録した単語を音響的に抽出する「キーワード・スポッテイング」という技術をベースにしている場合もありますが、この方法ではあまり複雑なことはできません。
一方、IBMのNLUシステムでは、ディクテーション・ソフトで用いられた最新の音声認識技術によって発話内容を正確に書き起こし、それを構文解析し、目的地や、指示内容といった情報を正確に抽出するという手順をとります。この結果、「声でシステムを操作する」場合に用いられている既存の音声認識に比べ、発話の自由度は圧倒的に高まります。たとえば、
「えっと、先に渋谷によってから箱崎に行きたいんだけど、案内してくれる?」
といった要求にも応えることができるようになります。まだ限られた場面のことしか理解できませんが、この点でも少しだけ人間に近づいたと言えるでしょう。
この例で示したように、日本では将来のテレマティックス関連分野への応用において議論されることが多い音声認識ですが、アメリカでは電話の自動応答システムや、種々の情報を電話で提供する音声ポータルサービスが急速に普及しており、これらの中でNLUに代表される高度な音声認識技術が用いられるケースが増えています。
一方、i-modeといった携帯端末からのインターネット接続サービスがすでに広く普及している日本で同様の電話サービスが定着するかどうかはまだ分かりません。しかし、少なくとも単にプッシュホンを音声で置き換えただけの自動応答システムでは限界が見えています。
声に含まれる情報を検索する
これは、声で直接何かをしようというわけではなく、声に含まれる情報を効率よく取り出すために音声認識を使おうというものです。IBMが進めている“スーパーヒューマン”プロジェクトも、主な目的はここにあります。
この連載の第9回で大量のテキスト・データから有益な情報を見つけだす「テキスト・マイニング」技術の紹介がありましたが、世の中にあふれているデータはテキストだけではありません。電子メールが広く普及した今でも“声”は人間にとってもっとも簡便なコミュニケーション手段であり、まだ重要な情報の多くは音声でやりとりされているのが事実です。ただ、音声というデータはテキストのように短時間で概観することができません。内容を確認するのに意外に手間と時間がかかるのです。
たとえばコールセンターで行われた顧客とオペレーターの対話の中には経営に役立つ重要な情報がたくさん含まれているはずですが、その情報は膨大で、索引なしにすべてを聞き直すことはあまりに非効率です。ディクテーション・ソフトで用いられた音声認識技術を使えば音声を単にテキストデータに変換するだけでなく、音声にテキストの索引をつけることが可能になります。この技術を「オーディオ・インデキシング」あるいは「オーディオ・マイニング」と呼んでいます。
また、各話者の音声が独立したチャンネルで録音されている場合は言うに及ばず、ミキシング録音されている場合でも発話が完全に重なってさえいなければ発声区間毎に話者を認識する技術もあります。たとえば議会での応用を考えると、ある特定の議員の発言だけをまとめて聞くといったことも可能になります。
マルチメディアのデータについても同様です。音声認識の結果を索引として利用することで、これまで困難であった画像データなどへの索引付けも容易に行うことができるのです。
課題は認識精度です。精度は個々のケースによるので何とも言えませんが、認識率を大きく左右する要因でもっとも大きなものは雑音です。そのほか、発声の丁寧さ、方言などがあげられます。電話などの帯域制限、CPUやメモリーといった計算機資源の制限も認識率に影響します。
現状では、発話者の認識も含めて、95%以上の精度を出せるケースもあれば、50%以下のケースもあります。精度が十分高い場合はテキスト・マイニング技術と併用することもできるでしょう。一方、私の過去の経験に照らしてあえて数値を挙げるなら、文字誤り率(文字の挿入、削除、置換という3種類の誤りの合計が総入力文字数に占める割合)が30%以下であれば索引としての利用価値は十分にあるようです。
音声認識の今後
音声認識システムの基本能力は毎年改善されており、いろいろな場面で徐々に人間の能力に近づいています。人間もそうであるように、何年待っても誤りが0になるということはありえませんが、去年まではまだ無理だと思われていた分野への応用が、最新の技術を使えばうまくいくといったケースは多々あります。特に今後はコールセンターでの着信の自動振り分けやオーディオ・マイニングといった応用に期待がもてそうです。
また、VoiceXMLやX+V (XHTML+VoiceXML)などの標準化も進み、対話アプリケーションの開発もかなり容易になってきました。未熟な技術ゆえにまだ手間のかかる部分はありますが、以前ならば音声が使えるということだけで優位性があるように見えたアプリケーションにも、今後は本当の意味での使いやすさが求められるようになるでしょう。
(西村 雅史/日本IBM東京基礎研究所 主席研究員)