前回のテーマはビジネス・プロセス統合でしたが、今回は企業における「情報統合」(information integration)についてご紹介いたします。
一般に情報統合とは、散在するデータやWWWの多様な情報を収集・分類し、より高度な情報の要求に応えるという意味でよく使われる表現です。ただし、IBMの考える情報統合は、企業内の異種データ・ソースやコンテンツの連合(federation)を経て、データの総合的な分析やWebサービスとのインタフェースなども扱えるようにしたものです。
では、なぜDB2に代表されるIBMのソフトウエア製品がこのような方向を目指すのでしょうか。それは、ビジネス・プロセス統合やオンデマンド・ビジネスが必要とされる理由と同じものです。既存のデータを無理なく連携させ、かつ常に変化し続ける業務にスピーディに反映できることが、業務の効率化、即応性、柔軟性、集中化といった目標を追求するうえで不可欠なデータ管理要件になるためです。
インターネットで検索エンジンを日常的に利用される方は、検索エンジンという1つの入口(ポータル)から、Webページ、文書ファイル、プレゼンテーション資料といった多様な情報が統一的に検索でき、さらにその先にリンクされるデータベースやサービスに簡単にアクセスできるという利便性をもう当然のことと考えていらっしゃるでしょう。企業内のデータやビジネス・プロセスについても同様の機能性が要求されているのです。
情報統合の実現
IBMの考える情報統合は、DB2においては主に「フェデレーテッド・サーバー」と「ラッパー」(wrapper)により実現しています。
フェデレーテッド・サーバーは、ユーザーやアプリケーションが異種データ・ソースを整合性のある1つのデータのまとまりとして関連づけ、アクセスできるようなインタフェースを提供するものです。
ラッパーは、それぞれの異種データ・ソースごとに定義されるコンポーネントで、フェデレーテッド・サーバーがそのデータ・ソースとデータをやりとりする仕組みを提供するものです。ラッパーにはデータソースについての処理特性も定義することができるため、フェデレーテッド・サーバーが異種データソースにまたがる処理全体を最適化することができます。
IBMでは「DB2 Information Integrator」という製品で、DB2以外の他社製データベース・システムや文書ファイル、XML、表計算データといった多様なデータソースを扱うラッパーを提供しています。また、異種リレーショナル・データベースのレプリケーション(複製) によって、データの分散、結合を支援します。これにより、従来は非常に面倒であった異種データソースをつなぎ合わせたデータ分析や、アプリケーションの統合が容易になりました。
DB2製品には、ほかにも従来EIP(Enterprise Information Portal)で提供していたコンテンツ管理、データの串刺し検索(フェデレーテッド・サーチ)、 テキストマイニング機能などを提供する「DB2 Information Integrator for Contents」があります。今年の3月に米国IBMのWebサイトに情報統合のwhite paperが掲載されました。まだ英語版しかありませんが、情報統合によるリアルタイム処理やデータウェアハウスの拡張など、ここではご紹介できなかった話題も多く含んでいます。
このような情報統合が最も顕著な分野の1つに、ライフサイエンスをあげることができます。ヒトゲノム計画やテーラーメード医療など最近話題の多いライフサイエンス分野には、多種多様なデータソースを同時に利用したり、複数の研究拠点にまたがった創薬業務、あるいは医療研究といった事例が豊富にあります。
IBMは、特にライフサイエンス向けに「DiscoveryLink」という情報統合のソリューションを提供してきました。遺伝子、タンパク質、化合物といった対象別に高度に組織化したデータベースに加えて、実験データの分析、塩基配列や化合物の構造に基づく類似検索、実験ノートや医学文献といったテキスト情報検索との連携ができるなど、情報統合の最先端のニーズを見ることができます。
メタデータや非データベース情報の統合
情報統合によって、今まであまり考えられなかったような異種データを自在に組み合わせることができますが、業務に最適なデータをどのように選択したらよいかは一義的には決まりません。そのため、それぞれのデータ・ソースがどのような目的で、どういった情報を記述しているのか、といったデータに関する情報(メタデータ) を定義することで、非定型的な情報要求にも柔軟に対応することができるでしょう。
メタデータは、必ずしも人が読んで理解するための記述である必要はなく、Webサービスによってアプリケーション間で動的に交換するような形式も考えられます。情報統合をインフラストラクチャとして実現したあとは、メタデータの有効活用が増大する情報の資産価値を十分に引き出すための鍵になるでしょう。
情報統合は機能的にも大きな変化が見られます。データベースの検索とテキスト情報の検索とを比較してみましょう。前者が特定の項目値に基づく解の選択で十分であるのに対し、後者は一般に検索キーワードを含む文書の選択だけでは不十分です。「検索結果の文書を読む」という作業を考慮して、検索キーワードとの関連度の高い順に文書を表示したり、できるだけ多くの検索キーワードを含む文書から表示するといった機能が必要です。
さらに、検索結果として出力された文書の内容をもとに他のデータベースにアクセスする場合は、テキストからデータベース検索に利用するための項目値を新たに生成する必要があります。生のテキストを処理し、一定の規則でリレーショナル・データベースに変換できれば、従来の分析手法をテキスト情報も含めて適用できるようになります。
このような技術は「テキストマイニング」と呼ばれる手法で研究開発が続けられています。データ・ソースがXMLのように構造をもった情報であれば、特定の構造をもつデータの選択や、その結果を部分構造に射影するといった処理も伴うことになります。現在のリレーショナル・データベースを対象とした照会言語SQLではこのような要求に応えることができないため、XQueryという照会言語が用いられます。
オントロジーの活用
情報統合に伴って注目されているもう1つのリソースが、「オントロジー」と呼ばれるものです。オントロジーとは、与えられた分野における概念や用語の体系を記述したものです。
異種データ・ソースを統合する際に大きな問題となるのが、同じ事物や概念が別の表記で記述されていることです。データの結合ができないだけでなく、データの分析や統計的な処理の精度が悪くなり、せっかく情報統合しても信頼できる結果を得られないことになります。
ここにオントロジーを利用すれば、異表記をもつ対象を統一的な表記にしたり、詳細な情報を抽象化することができます。また、オントロジーはそれ自体でも知識体系として価値をもつものですから、ナレッジ・マネジメントやコンテンツ管理においても重要なリソースとなるでしょう。最近話題になっている、Web全体に意味的な情報を付与し、コンピュータによる自動処理を支援しようという「セマンティックWeb」の活動においても、オントロジーが主要な要素になっています。
オンデマンドな情報統合
これまで述べてきた情報統合は、そのダイナミックな情報要求への対応においてオンデマンドな特性をもっています。特に非定型的なデータ分析においては、試行錯誤的に関連した情報をつきあわせつつ、意思決定にかかわる重要な結論を効率的に導き出す必要があります。分析を行う対象の範囲や、過去の長期間にわたるデータを扱うときには、データ量の増加にともなって計算のコストも大きくなるため、必要なときに必要な量のデータ分析を可能にするオンデマンドな情報統合が欠かせないでしょう。
このような計算コストは、データマイニングやテキストマイニングのようにデータ主導の発見的手法の場合には一層大きなものになります。大量かつ異種のデータを使いこなすためにも、オンデマンドな形態への移行は情報統合に伴う必然的な変化といえるでしょう。
(武田 浩一=日本IBM 東京基礎研究所
サービス&ソフトウェア/ナレッジ・インフラストラクチャ担当次長)