K-mean法
「日経サイエンス」2001/11 を読んでいたら、ベオウルフの記事のところで、問題をK-mean法で解こうとすると時間がかかるので、多数のLinuxパソコンを並列動作させることにしたみたいなことが書いてありました。僕に言わせれば、悪いアルゴリズムのために、高速なコンピュータの母となったという話になります。 中央値分割 このページで、昔、他のアルゴリズムとの比較を行っていますが、さすがにK-mean法については検討していません。遅すぎます。 というか、そもそも、サイエンスの記事の場合、軸の重みをどう決めたのかという疑問がわきあがります。無意味な計算のために、高速なコンピュータを使ったのではという疑問です。 距離を求めるために軸の重みの問題が出てくるわけで、あくまでも近似と割り切って、因子分析で少数の軸にまとめて、それから、K-meanでも良かったのでは? 類題なお、同様のことを考えている人に、別の問題を出題しておきます。暇があれば自分で解くのですが。 すべての自治体ごとに、電話帳にいろいろな職業が何件載っているかのデータを電話帳CD-ROMなどから入手して、自治体をクラスタリング、また逆に、職業をクラスタリングしてみてください。この問題は、政府がやっていそうなものですが、ディザかけた後に、JPEG保存するような発表をみると、ボンクラが関わっていて、悪いアルゴリズムで手間だけかけているのでは? と見ています。
外部リンク
関連ページ
作成 2001/9/25 - 更新 2004/01/26 |
関連ディレクトリ 関連サイト
|
|