Archive for 24 May 2006

24 May

#70.ラッキーストライク

ラッキーストライクと聞けば、まず思い浮かぶのが米国のタバコだろう。世界最初のインダストリアル・デザイナーといわれたレイモンド・ローウイの個性的な意匠も思いつく。ラッキーストライクの語意は、西部開拓時代のゴールドラッシュで一攫千金を夢見た山師たちが、金鉱を掘り当てたとき発した言葉だそうだ。
1848年、米墨戦争によってアメリカがメキシコから分捕ったカリフォルニアに金鉱が発見されると、ゴールドラッシュが始まった。1849年にはサンフランシスコ近郊に移住者が大挙して押し寄せたため、彼らは49年モノ、フォーティーナイナーと呼ばれ、フットボールのチーム名にもなっている。彼らはシーキング・ザ・ゴールドを合言葉に山に入り、鑿を穿つことを続けた。そして、運良く掘り当てれば「ラッキーストライク」となった訳だ。
このように採掘することを英語でマイニングというが、地中に埋もれている宝物を掘り当てることになる。その前に、山に宝物があるのかを見極める専門家がいた。鉱脈が通っているか、通っているとしたらどこから掘れば近いか、などを診断する生業でプロスペクターと呼ばれた。ただ、これも最初のころは科学的知見に基づいたものではなく、経験と勘が頼りだったので、鉱山鑑定士というより「山師」といわれていた。

話は変わって、データ・マイニングやテキスト・マイニングというマイニング絡みの言葉を耳にする。データ・マイニングは、蓄積された大量のデータからデータの中に潜んでいるビジネスに活用できる有用な情報を取り出す技術である。コンピュータを駆使して、角度を変えた集計や分析を行なうことによって、目新しい情報を引き出しビジネスに活用しようというものだ。また、テキスト・マイニングは、形式化されていない通常の自然文のデータを、単語などに分解し出現頻度や相関関係をデータ・マイニングの手法を使って解析し、一定の知見や発想を得るテキスト・データ分析方法の総称である。ともに、データをコンピュータで処理するときのことで、マイニング、つまりお宝を掘り当てる作業である。
特にテキスト・マイニングは話題の手法なこともあり、いろいろ試してみたので、率直な感想を述べたい。まず、作業量が多く、意外と手間が大変なことだ。次に得たいものが出てこないデータであることが明らかなときでも、その辺のことには方策がないことだ。ということは、骨を折って最後に良い結論になれば良いのだが、有効なゲインがないまま終わってしまう危惧がある。手間が大変というのはともかく、期待したモノが得られないという判断が早めに出ないと、多大な手間が徒労に終わることもあるのだ。コンピュータを使うことから、山師的な雰囲気が排除され、いかにも科学的知見に基づく方法にみえるが、実は山師すらも不在でいきなり発掘に掛かってしまう極めて当てずっぽうの作業がテキスト・マイニングといってもおかしくない。
このようにテキスト・マイニングでは、プロスペクターの存在が議論されていないので、データの山にお宝があるのかないのかは分からず見切り発車しての作業になってしまっている。データ・マイニングでは難しいが、テキスト・マイニングなら、単語の出現頻度ぐらいの段階でプロスペクターの出番はありそうだ。「この山にはお宝はありません」と冷徹に言って退けるプロスペクターがいないと、テキスト・マイニングに対する誤解や無謀な期待はますます広がってしまうだろう。また、データの分析にかかる前に、データの集め方や保存法、さらにはデータの一部を見ただけで「お宝」の存在を言い当てる「山師」がいても良い状況だ。現状は、テキスト・データが大量に蓄積された状態は容易に想定できるので、テキスト・マイニングについてはプロスペクターの起用を考えるのが先決だろう。お宝のない山をいくら最新の機材を投入して採掘しても、ラッキーストライクには結びつかないからだ。


06:00:00 | datesui | No comments |