(1) 研究目的または目標
●インターネットの検索エンジンは、高々、ビットテーブルの論理演算で可能な範囲の簡単な処理しかしていないので、不満があるわけそれを解消します。
●それだけでは、つまらないので、テキストに限らず、画像の検索も可能にします。画像の検索は例示による類似検索だけではなく、テキストの検索の様に部分の一致でリストアップする機能を実現します。
●また、画像の検索の時に使われることの多い、例示によって類似した画像を見つける機能をテキスト検索において実現します。これは、例えば、自分の Webページと似た競合するWebページを見つけて差別化するという用途や、著作権侵害の発見のなどのために具体的に意味があると思います。
●さらに、テキストや画像について、最初に入力されたキーワードなり部分画像からスタートして、抽象度を徐々に上下することで検索キーの概念の精度を指定可能にしたり、本人にとっては常識なのであえて意識に上っていない論理積をとることのできるであろう近傍の概念についても提示し、また精度を確定するという繰り返しによって、最適な検索を可能にします。
(2) 背景
テキストの全文検索型の検索エンジンは、不要な情報がいっぱい並んでしまうというのが最大の問題とされていますが、インターネットでは主流になっています。初期のディレクトリー型の検索エンジンは、現在では検索の比重が下がりポータルサイトとして人気を維持している様です。全文検索型のサイトでは、採取するデータ量を増やす競争が行われ、またその一方で、古い情報を捨てたり、多くのサイトからリンクされているページを優先したり、ユーザーからのフィードバックを利用したりすることによって、意味のある情報を上位に持ってくる工夫が行われています。
また、追加キーワードを例示する機能があるものもあります。しかし、例に挙げた「自転車」と「傘」から「折り畳み」という連想をする問題を解くのには使えません。単なる辞書でもできそうな、 folding から
bicycles や umbrella を関連語として出してくることさえ現在の検索エンジンにはできませんでした。
これらの原因は、検索エンジンだからといって余りにも検索という処理にとらわれすぎているということにあると思います。持っている多量のデータを最大限に生かしているとは言えません。 URLを知っていれば、URLを打ち込めば良いし、探している物の名前を知っていれば、その名前を検索サイトに打ち込めば良いわけですが、利用者が正しいキーワードを知っているとは限りませんし、探している情報が、WWW上に存在するかどうかも実はわからないのがWWWであるわけで、利用者がそのキーワードで検索できれば満足だという前提を捨て、検索エンジンは蓄えている大量の情報を元にできる限りのことをすべきだと思います。
また現在の全文検索型の検索エンジンには、1ページ単位で扱っているという問題があります。文や段落単位やより大きな単位でも良いはずです。
例えば、関連サイトをもれなく見ておきたい場合など、関連キーワードは、絞り込みのためではなく、類義語チェックのために使いたいわけですが、現在は無駄なデータが出過ぎるので、そういう方向には進んでいません。隠れている常識部分を検索エンジン側から提示すればすむはずだと思います。
画像検索については、画像に付属した説明文のキーワードで検索するのがもっとも実用的という様な段階ですが、例示によって、類似画像を検索するシステムも存在します。しかし、画面全体の統計量をキーにしていることが多く、色やテクスチャーに比重がありすぎて、形の情報はあまり使われていません。
(3) 仮説(どのような提案を行っているか)及び手法(どのようなアプローチを取るか)
単語の分布する意味の空間は究極的にはどの程度の自由度の空間に縮約できるか? というのは興味ある問題ですが、実際の処理としては、単語の数と同じだけの次元でそのまま扱ったり、サムネイル画像の様に縮約した意味の空間で扱ったりと、データ量や用途に応じた処理をすることになると思います。いずれにしろ、多次元空間を自在に切り刻むことができなければ、全文検索型の検索エンジンはゴミばかり返すことになってしまいます。
例えば、多次元空間のクラスタリングをそのまま応用して、以下のようなことも可能です。 WWWのすべてのページをあらかじめ10ページ前後ずつに分割しそのページを含んで、それに自動的に最大限のキーワードを付加して置き、10ページへのリンクへのリンクを検索結果として返すことも可能なはずです。現在の全文検索エンジンでは、検索結果として、リンクが10個ずつ表示されることが多いわけで、ユーザーは、最初の2,3ページでめげているわけです。しかし、10個のリンクを3ページ見る時間があれば、最大1000個のリンクの中から最適なWebページにジャンプできるわけです。コンピューターというのはそういう使い方をすべきものだと思います。初期のディレクトリ型検索エンジンの偶然と歴史の産物のような不細工なジャンル分けは顰蹙ですが、最下位レベルの類似した1000ページの中から3ページを経て目的の1ページに辿り着くためのキーワードであれば、単語そのものであり、無機的でいかがわしさは臭わないと思います。
ついでに、目的のページが見つからなかった時のために、ノード毎に掲示板を用意しておけば、それを見て誰かがそういうページを作るという可能性も高くなります。
また、結果的には似ていますが、Webページのデータが追加されたり削除された時ではなく、検索のたびに、階層化の処理を行うことも、処理の量がかなり増えますが可能だと思います。
少し話が逸れましたが、自転車と傘から、折り畳みというキーワードが出てくるタイプの検索を行うためには、単に、他の単語との隣接(同じページとか同じ段落とか同じ文に含まれているというのも含めて)確率を2つの単語について求めて積を求めてからリストを提示するというだけの処理でも可能ですが、少し前に思いついた画素の隣接の統計から領域の前後関係を推定するのと同様のアルゴリズムを用いることで、同じデータから、連続的に抽象度を変化させるための構造化が可能ではないかと考えています。
画像理解の方針については、去年の説明と基本的には変わっていません。エッジ検出や、領域併合という様な処理をせずに、色空間内の処理で大半の処理は終わってしまうためにきわめて高速に処理できるというものです。ハードウェア向きのアルゴリズムを作るという考えを捨てて、僕のアルゴリズムをハードウェア化するという方が近道だと思います。グラデーション近似の段階まではコーディングも終わっています。前後関係の判定については、アルゴリズムに変更があり、予定よりやや遅れていて現在コーディング中です。残りはテクスチャーの抽出と、オブジェクト毎のパターンマッチングだけです。テクスチャーの抽出にしろ、パターンマッチングにしろ、多次元空間のクラスタリングのアルゴリズムによって高速化できる部分です。
画像検索エンジンのためには、画像理解だけではなく、色、形、テクスチャーに分解された大量の画像部品を独自形式で保持する必要があるので、画像圧縮も必要になります。
(4) 類似研究との差異
検索エンジンという点では、従来の物は、検索そのものでしかない単純なアルゴリズムで終わっていると思います。コンピュータ内に意味の空間を再構成するための統計サンプルとしての WWWを使うという立場に立てばできることはいっぱいあります。現在、それがなされていないのは、多次元データを高速に扱えないからでしょう。
画像理解については、従来の研究は、多くの階層に分かれていて、それぞれの人は、一部分の階層だけに取り組んで後は人任せにして満足していたり、応用寄りの研究の場合は条件を限定して簡単な問題に変えてしまっていたりしたと思います。さらに言えば、下位の段階で、必要な情報まで捨てすぎていると思います。いらない情報だけをそぎ落とす様にきちんと最適化すれば、多義性が生じて上位の階層からのフィードバックが必要という様なチグハグな事態が頻発するはずがありません。
(5) これまでに得られた成果
多次元データのクラスタリングを高速に行うアルゴリズムは、これまでに学習エンジン、減色、TSP、ベクトル量子化圧縮、グラデーション近似、境界線データの単純化などいろいろな分野に応用してきました。明らかにうまくいったのは減色の例だけですが、5年経て未だに、最高画質を最高速度で減色できるソフトの地位を保っています。TAOの助成金を得て昨年度から開発している(やや遅れていて、4月末時点ではまだ未完成)グラデーション近似機能付きベクトル化ツールも、完成すれば、既存のものよりファイルサイズが半分以下になる予定です。
多次元データのクラスタリングを行う僕のアルゴリズムは、多次元データを扱う多くの分野に応用可能です。バケット法では、最適化した場合に、一見、サンプル数* log(分割数)にしか比例しなくて、定数の差でしかない様に見えて、実は定数の次元乗に比例する項が隠れているのに対して、僕のアルゴリズムでは、次元に比例する項しかないので、次元が高くなるほど僕のアルゴリズムの高速さが効いてきます。
また、グラデーション近似機能付きベクトル化ツール内の前後関係判定ルーチンのために新たに拡張したアルゴリズムでは、隣接関係のデータから前後関係を判定していますが、その考え方はキーワードの抽象度を微調整する部分に応用できます。
画像理解については、独自の方針で、ボトムアップで徐々に進んでいます。残りはわずかです。
(6) 具体的な研究項目とその内容
1 画像理解
1.1 テクスチャー抽出
1.2 パターンマッチング
2 画像検索
2.1 画像圧縮
2.2 類似度で検索
2.3 部分一致で検索
3 テキスト検索
3.1 部分一致で検索
3.2 類似ページの検索
4 抽象度の微調整機能
4.1 テキスト版
4.2 画像版
5 インターネット関係
5.1 ロボット
5.2 ユーザーインタフェイス
(7) 将来の発展性及び当該研究課題の実施により期待される効果
画像理解、画像検索の部分は、画像理解ベースの映像編集ソフトなど、すぐ実現可能な身近な応用が考えられます。
検索エンジンについてのアイデアは検索エンジンに特化したものなので、転用する意味はあまりありません。しかし、検索エンジンが改良されることで、単に不便で探し損ねただけだと思っていた人々が、 WWW上に載っていない情報があることに明確に気づくようになって、それを補い、WWW上の情報の網羅性がますます高まると思います。個々のWebページも互いに矛盾していても平気という状況ではなくなり、影響しあい高めあうようになると思います。
あと、多次元データのクラスタリングのアルゴリズム自体は、まだまだ応用分野が広いので、いろいろ開発しなければなりません。
(8) 研究スケジュール
3年間を単純に割ると、(6)の1つの項目について、3ヶ月毎余りということになるので、なんとか間に合うと思います。
|