IT機器を使っての企業活動が浸透し、社内には膨大な電子データが蓄積されています。データベースの形で整理可能な数値や、限定されたシンボルなどの定型データは、データベースソフトやデータマイニング・ソフトを使うことで有効に活用されています。しかし、自然言語で書かれた報告書、営業日報、お客様のコールログなどの非定型データ(テキスト)は、データとしての有効活用があまりされていないというのが現状だと思います。
定型データはデータの意味(セマンティックス)が決まっているので、高度な利用--たとえば、口座の残高がマイナスになったら特定のアクションを起こすなど--が可能ですが、非定型データは意味づけが不明なため有効活用されずにいます。
また、この非定型データはインターネット上にも膨大な量が蓄積されています。例えば、企業活動にとって、インターネットで交わされるユーザーの製品・サービスへの批評などは非常に貴重なデータとなっています。インターネット上の非定型データは玉石混合ではありますが、これらの有効活用が非常に重要であることは間違いありません。お客様の要求に早期に答えることができるオンデマンドな社内プロセスを実現していくことが顧客満足度向上の為に必須です。この観点から定型データと共に非定型データを如何に効率良く活用できるかが非常に重要な課題となっています。
必要なデータを見つけ出す
インターネットに限らずイントラネットでも、何かを探したいときに一番良く使われるツールが検索エンジンです。検索エンジンの基本動作は、ユーザーが与えた検索キーワードが存在している文書を選び出すというものです。この場合、複数の検索キーワードを「AND」や「OR」で結合して検索式を作成し検索することが可能です。
ただ、ユーザーが適切な検索キーワードを与えることができるとは限らないという問題があります。例えば「ハードディスク」という言葉は文書中で、
「ハード ディスク」「ハード・ディスク」 「Hard Disk」「HDD」「HD」「DASD」
など様々な書かれ方をしています。「ハードディスク」という検索キーワードだけでは、これらのバリエーションに対応できません。そこで、同義語辞書を使って検索キーワードを拡張をする手法がよく使われます。
もう一つの問題は、「AND」や「OR」で検索キーワードを結合できるとしても、実際に幾つものキーワードを考えて「AND」や「OR」で検索式を作成するエンドユーザーがあまりいないということです。一般的に、ユーザーが与える検索キーワードの数は2つ未満であるといわれています。
検索エンジンの出力結果は数万件になることはよくあることです。そんな時に、検索要求に一番類似なものから順番に並べて上位n個程度を提示するランキング技術が重要となります。
ランキング技術の典型的なものに「ベクター・スペース・モデル」というものがあります。ベクター・スペース・モデルとは、検索質問文と検索対象文章双方をキーワードを次元としたベクターとみなして、N次元空間内でのベクターの近さを類似度とみなすというものです。この手法を用いた検索エンジンは、類似なものから上位M個を取り出して表示します。ただ、通常ベクターの次元数は非常に大きくなってしまいますので、この次元を削減する手法が各種開発されています。
今後の検索エンジンの技術的な進歩には様々な方向性が考えられると思いますが、その一つが上記のランキング技術の高度化になると思います。上記のベクター・スペース・モデルはこのランキング技術の一つですが、今後は、自然言語処理を用いて係り受けなどの構文情報を用いて類似度を計算しランキングするなどの手法が増えてくるでしょう。例えば、
「ATMで利用できる外貨預金」
という検索文を与えられた場合、通常ですと
「ATM」「利用」「外貨預金」
というキーワードがなるべく近傍にあるような文書が選ばれますので、
A: …では、外貨預金は窓口でご利用になれます。ATMは、...
B: ATMで、円普通預金、円定額預金、ならびに、外貨預金を利用できます。
という順番でランキングされるかもしれませんが、
・「ATM」は「で」格で「利用する」に係る
・「利用する」の目的格は「外貨預金」である
という構文情報を用いると文書Bを上位にすることが可能となります。まだ、これらの構文情報を如何にコンパクトにインデックス化し高速な検索を実現するかという課題はありますが、高度なランキングを実現する要素技術の一つと考えられています。
また、このランキングの計算に分野特有の知識を使って、分野固有の検索エンジンを作るという方向性も出てくるのではないかと思います。例えば、旅行情報に特化した検索エンジン、金融商品に特化した検索エンジンなど、個別の分野で分野特有の絞込みインターフェースを備えた検索エンジンが必要とされています。
最近増えてきたお客様の苦情は何?
冒頭でも述べたように、企業では自然言語で書かれた貴重な情報を含んだテキストが蓄積されてきていますが、残念ながら有効活用されていないという現状があると思います。この典型的な例が、コールセンターに寄せられるお客様の声です。カスタマー・リレーションシップ・マネージメント(CRM)の観点からも、コールセンターに寄せられたお客様の声のログを分析し、自社製品・サービスなどの問題点を早期に発見することが非常に重要となっています。
このようなニーズに対応する技術が「テキスト・マイニング」です。これは、データベースに蓄えられた定型情報を対象とするデータ・マイニングのテキスト版と考えることができます。
テキスト・マイニングで重要なのは、テキストからどのような情報を取り出すことができるかと言うことと、どのような分析(マイニング)をするかという点です。前者は、自然言語処理技術の発達に大いに関係しています。従来は、上記の検索エンジンのところでも述べたようにキーワードを取り出し、それらの間の相関を取るというのが一般的なものでした。しかし、近年、構文解析(係り受け解析など)の技術的発達により、キーワードだけでなく、フレーズ・レベルの情報を取り出すことができるようになっています。例えば、
「ThinkPadでWebSphereが動きますか?」
という質問があったとします。従来の手法では、ここから
「ThinkPad」「WebSphere」「動く」
というキーワードが取り出され、それらの間の相関などの分析をするのみでした。ここで構文解析技術を使うことで、
「ThinkPadで...動きますか?(質問)」
「WebSphereが..動きますか?(質問)」
というように、フレーズレベルの情報を取り出すことが可能です。
また、「(質問)」と書いたように、お客様の意図を認識するのも大変重要です。この場合、お客様は「質問」をしていると解釈していることになります。意図としては、この「質問」以外に、「問題」「要望」など様々なものを考えることができます。IBMのコールセンターのログの分析では、例えば、「動く」という動詞を使った文のうち、「動かない(問題)」「動くの?(質問)」などの意図をきちんと認識すべきものが半分弱あることが分かりました。意図の認識なしでは、この半分弱のお客様の声を有効に活用できないことになってしまいます。
このような、情報抽出ができれば、ある製品に関して「ソフトウエアの導入可能性に関する質問」を含んだ文書数が月毎にどのように増減しているかの傾向をみたり、あるいは、「導入可能性に関する質問」と相関関係が強い製品モデルは何かを調べたりといった分析(マイニング)作業が可能となります。
例えば、特定のソフトウエアの導入可能性に関する質問がある時に急激に増加し始めたのを確認できれば、そのソフトウエアの導入に関するFAQをWeb上に載せるなどの対応策を取ることができます。また、ある特定の製品モデルと故障に関するクレームとの相関が高いことが分かれば、それを含んだ実際のコールログを分析し問題点を早期に発見できる可能性があります。
このように、お客様の意図をフレーズ・レベルで認識しマイニングすることにより、早期に自社製品の問題点を発見することが可能となります。IBMでも、我々が開発したテキストマイニング技術である「IBM TAKMI」を用いることで、ある製品のオプションの問題点を早期に発見したり、問題分析レポートの作成での大幅な省力化を達成したりなどの効果を上げています。
コールセンターに集まるお客様の声と同様に重要なのが、インターネットの掲示板などで交わされるユーザー(あるいは潜在的ユーザー)の声です。最近は、製品やサービスへの苦情や批判などが、企業が受け付ける正規のチャネル(コールセンターなど)に寄せられる前に、インターネットの掲示板やホームページなどに載り、インターネットの世界で評判が形成されてしまうと言う現象が見られるようになっています。
例えば、故障・不具合というレベルではない使い勝手上の不満のようなものは、通常わざわざコールセンターへ電話をすることはなく、最近はインターネットの掲示板に書き込んで終わりというのがほとんどです。この手のちょっとした不満・要望を知るためには、インターネット上のユーザーの声は非常に貴重な情報源といえます。
ただ、中には、事実と異なる誹謗・中傷などが書き込まれる場合があります。企業活動に損害を与える可能性のあるこの手の情報をいち早く検知して適切な対応を早期に取ることが危機管理の観点からも必要です。このような例からも、インターネット上の情報の有効活用が企業にとって大変重要であることは間違いありません。この様なニーズに対応するため、評判に関する発言内容を取り出そうという研究も始まり、早急なシステム化が期待されています。
オンデマンドな顧客対応
今や企業活動にとって、これらの自然言語で書かれた定型化されていない情報を如何に有効に活用し、早急な対応につなげることができるかが死活問題になりつつあると言えると思います。IBMでは、この様な課題に対して、自然言語処理技術による高度な情報抽出技術により、CRMなどの領域での企業活動をより高度化・効率化・迅速化するための研究・開発を行っています。
(渡辺 日出雄/日本IBM 東京基礎研究所 ナレッジ・インフラストラクチャー/インテリジェント・インフォメーション・グループリーダー)