検索エンジンでキーワードの相関を求める
使い方
例えば、
- x:「東京」のヒット数が358,000,000、
- y「天才」のヒット数が41,900,000件、
- xy「東京 天才」のヒット数が6,410,000件
- 日本語総ページ数の推定が2,000,000,000と入力後に、
- [計算]ボタンを押すと、相関係数が、-0.00992759と負の値になります。
2つの単語の相関を検索エンジンのヒット数から求めます。相関係数を求めるために、総ページ数が必要ですが、日本語総ページ数は、はっきりとはわかりません。全言語の1/10程度くらいに設定すれば良いのではないかと思います。Yahooの総ページ数は2005/8の時点で200億ページだったそうです。
仕組み
ソースを見るとわかるように、相関の計算にすぎないので、下の様な式で計算しているだけです。
s=(t*z - x*y )/sqrt(x*(t-x)*y*(t-y));
変更
x,y,xy共に1つしかヒットしない場合でも相関係数が1になってしまうのは、ベイズ統計の考え方を無視しているので、その点を変更しました。別のページで散々ベイズ統計の名にふさわしくないスパムフィルターを非難しているわけですから。1,1,1だと
1だったのが0.66に、10,10,10で、1だったのが、0.91に変わります。とかになります。
応用
吉本ファンタンゴを見ていても、ヒット数を比べる遊びとかやっているわけで、「吉本」と最も相関の低い単語を探す遊びとかできるでしょう。別にテレビでなくても、2ch.netとかの遊びにもできるでしょう。
本当は
Yahooも1年前からAPIを公開しているので、100個までの単語を入れて、相関係数行列を作って、最短木なり、主成分分析なりするソフトを書くべきなのですが、すぐ気が散ってしまいます。というか、僕が落穂ひろいするより検索エンジン自身が提供すべき本来的な機能だと思っていてできないというのもあります。Windowsアプリを書いても儲かるのはマイクロソフトだと思ったらプログラミングする気が無くなるみたいなのと同じです。変な癖がついたものです。
2006/2/12追記 |
関連ページ
作成 2006/2/11 - 更新
2006/02/12
| |
通信ディレクトリ目次
関連ディレクトリ
発明
個人情報
PC
関連サイト
matsuokahajimeのアンテナ
matsuokahajimeの日記
乱雑な本棚:反グローパリズム
外部リンク
|