スパムフィルターベイズ統計を正しく実装していないのにベイズジアンと名乗るのは不当表示
アメリカで、70歳代の修道女が、テロリストとして取り調べられたという事件があったそうです.原因は、難民支援の寄付をしたことを、メキシコ反政府組織への資金提供と解釈する乱暴なプログラムのせいだったそうです. 犯罪の起こりやすい曜日や地域を特定し、そこに集中的に警官を配備するという様なプログラムは有名ですが、その仲間でしょうね.これらのソフトウェアもすべてベイズ統計を名乗っているはずで、正しい実装だと信じたいですが、修道女の例のような極端で2値的な動作をするプログラムがあるとすると、それはポールグレアム級のプログラマが他にもいてその作品かもしれません.
ベイズ統計の説明はしません背景にある確率構造を推定するためにベイズ確率を用いる応用がほとんどであるわけですが、事前確率が新たな知識が加わることで更新されるということを言いたいがために、「3つの箱のうちの1つにプレゼントが入っています.1つの箱を空けたら空でした」みたいな場面で説明する人がいるせいでベイズ統計について早とちりしている人がいるのだと思います.誤解を増やしたくないので説明はしません. 暗い道で物を落とした時に落とした場所ではなく、街頭の下だけを探すという例え話があります. 日々繰り返すすべての判断に十分な統計的データがそろっているわけではありませんが、サンプル数が少なくて有意水準に達しないからと、ありそうな場所という仮説の代わりに帰無仮説を採用し、無いけれど探しやすい場所を探すという話でもあります. ベイズ統計の必要性200軒のサンプルで1軒だけNHK教育を見ていたときに、
わざわざそんなことをしないといけないのは、少しでも情報を有効に使い誤差を減らした表現をしたいからです. スパムフィルターの問題を置き換えてみる漢字のラスタイメージの中から馬偏の漢字を選び出すのを助けるプログラムという宿題が出たと想像してください日本で手書きの郵便番号認識が実現したのが1968年ですから、それより簡単な問題であることは確かです 7000字ほどの漢字が7000通ほどのメールに対応し、馬偏の漢字が、必要なメール、馬偏でない漢字がスパムメールに対応しているという様に考えることができるでしょう. この宿題にベイズ統計を使いますか? ユークリッド距離か、内積を指標にするでしょうね。 スパムフィルターのユーザーインタフェイス(朝三暮四)スパムが蔓延しているひどい現状に対して、スパムメールを学習させるという自分の行動がなんらかの解決につながっているという幻想によってスパムによって生じるストレスが多少なりとも軽減されるという心理的な効果が大きいのでしょう。どんなに調整しても解決にはならないけれど、関係のない要調整箇所でもないよりはましという例は、ワインバーグの本に出てきたのでしたっけ? 映画「ライトスタッフ」の宇宙飛行士が、手動操縦できない棺桶になら猿を乗せろと強く主張していたのと同じ心理です.合計は変わりなくても朝と暮れのえさの比率を変えることで、猿を納得させる中国の寓話も、同じです. 関連ページ
作成 2005/2/14 - 更新 2006/02/12 |
関連ディレクトリ 関連サイト
外部リンク
|
|
|