- ロボットでデータを収集
通常のものと同じ。ただし、相関を求める際に影響がでるので、重複チェック、文字コードチェックを徹底する。例えば、www.foo.com/matsuoka/hajime.htmlと、www.foo.com/../matsuoka/hajime.htmlが重複収録されている検索エンジンもあった。
- クラスタリング
データに前処理を行っておくことで、高速化が可能です。また、相関による自動生成目次や、上位概念の抽出のための基礎データに使えます。分割の単位や分割の基準は様々です。同じ分類に入ったキーワードを細分するために必要になります。
- サイト単位のクラスタリング
- 上位ドメイン単位のクラスタリング
- ホスト単位のクラスタリング
- ディレクトリ単位のクラスタリング
- htmlのクラスタリング
- 段落単位のクラスタリング
- 文単位のクラスタリング
- 単語単位のクラスタリング
単語の相関を元に最近傍グラフを描いた例です。手元にデータがあればすぐですが、これだけのために検索エンジンで200回程AND検索をしています。ロシア語が混じるせいで、一部無意味なことになっています。これは、単語間のページ単位での相関ですが、実際には近隣の単語の張る空間内での単語間の距離を使う予定です。

-
- インデックスを作る
インデックス付けする文字列を増やせば、検索時に高速化できますが、インデックスサイズは増えます。しかし、単純なトレードオフではなく、同じインデックスサイズでも、できるだけ高速化する様に文字列の選び方を最適化する余地がある。この部分に多次元データのクラスタリングの手法が生かせる。
同様に、多段のインデックスを用意することでアクセスするデータの範囲を削減して高速化することが可能。これも、多次元データのクラスタリングが生かせる。
- 上位概念を抽出
近傍の語によって分類された単語について、グループ内での相関の様子で上位概念を選び出す。基本的な語は頻度で決定する。
- 画像理解、タグ付け、インデックス作成
教師信号が構造化されていることによって、車種の名前しか書いてない画像でも、車の画像として学習させることによって、学習の回数が増えるというメリットの他にも、車種を学習するのに車の中で弁別できれば良いというメリットもあります。画像理解自体としては、効率良く情報圧縮されているので少ないタグで済むというメリットがあります。
- ユーザーインタフェイス
- 構造化された語をたどれる
- テキスト or 画像 によるテキスト or 画像の検索
相関やジャンル内のランキングなど多機能になっているので、目的毎に分けてユーザーインタフェイスをがらりと変えることになると思います。