2008年3月、米ワシントン・ポストは1万7000ページを超える書類データを前に頭を抱えていた。ヒラリー・クリントン、現・米国務長官が大統領夫人だったころの8年分のスケジュールが米国立公文書館から公開され、この情報を基に記事を書く必要に迫られたのである。紙の書類を電子化しただけのPDFデータを1ページずつ読んでいく時間はない。
そこでワシントン・ポストはOCR(光学式文字読取装置)を使ってPDFデータから文字データを抽出することにした。必要な情報を効率的に検索するためだ。この抽出処理に利用したのが、米アマゾン・ドットコムが2006年12月から提供しているサービス「Amazon EC2(Elastic Compute Cloud)」だ。サーバーやストレージといったコンピューター資源を期間貸しする「クラウド・コンピューティング」の代表例である。
ワシントン・ポストはAmazon EC2上でサーバー200台に相当する処理能力を確保し、抽出処理を実行した。1ページ当たり60秒、すべての処理がおよそ9時間で完了した。Amazon EC2の利用料は、わずか144ドル62セント。ワシントン・ポストは自らサーバーを購入しないで済んだ。
















