あいまい検索
読み方:あいまいけんさく
別名:曖昧検索
【英】fuzzy string searching, fuzzy search
あいまい検索とは、検索条件が完全一致しない対象を、一定のルールのもとで抽出する検索方法のことである。
正規化されていない対象を検索する場合、表記揺れや同義語の違い、別名での表現、主テーマと検索語のずれ、誤植などさまざまなノイズが混入する。
検索システムでは、これらに対して多様な方法を適用している。例えば、データベースの検索言語であるSQLでは、LIKE文を用いて、検索対象文字列が部分一致するようなレコードを抽出することができる。また、テキストの処理に柔軟な機能を提供するPerl言語においては、正規表現を用いたパターンマッチにより、さらに複雑なパターンによる検索処理ができる。
さらに、高度なあいまい検索には、文書全体の語彙を分解して、ベクトル空間上に多次元表現し、検索対象語との意味的な距離を計測することにより、一致度を見る概念検索といったものがある。また、シソーラス辞書を活用して、語の抽象度の調整や関連語への連想展開などを行うものもある。ウェブの検索エンジンでは、Googleのように、コンテンツ間の参照関係や、重要語の重み付けなどをグラフ構造の中で評価するようなものもある。このように、あいまい検索には、さまざまな方式が存在している。
このような、あいまい検索を実現するテクノロジーによって、検索の柔軟性が増し、現実の要求をある程度まで満たしていると言える。しかし、ウェブのしくみ自体があまり洗練されていないための欠点が認識されており、近年ではウェブ自体を意味的に構造化してしまおうというセマンティックウェブが提唱されるようになっている。あいまい検索もこのような流れの中で、構造化された中での柔軟性が求められるようになっている。
|