つれづれなる記録: Lucene

2009年5月22日金曜日

Luceneの調査

Luceneの仕組みは検索対象となるファイルをすべて解析し、「インデックス」と呼ばれる情報を作成する。そして検索時はこのインデックスを参照することで処理の高速化が実現する。[写真]サンプル・アプリケーションの例
[caption id="attachment_3" align="alignnone" width="160" caption="Lucene"]

[/caption]
検索エンジンというと「namazu」が有名だが、namazuの実装はperlとC言語が使用されている為、JAVAアプリケーションを組み込むには、不便な感がでてきてしまう。
その点、LuceneはすべてJAVAで開発されているからJakartaとの相性も良いと言うことになる。

デフォルトのLuceneは日本語対応していないため、モジュールを使用することによって、中国語、韓国語、日本語を使用することができる。そのLucene用の日本語アナライザは、senプロジェクトの「CJKAnalyzer」と明確なネーミングだったりする。
Luceneもインデクサ部とエンジン部とから構成されている。
インデクサ部のコードの中でインデックスを生成するメソッドgetIndexになる。
getIndexは、第1引数に指定されたドキュメント・ディレクトリ内を解析し、インデックス生成処理を行う。次に第2引数に指定されたディレクトリに、生成したインデックスを格納する。

Data source from http://www.itarchitect.jp/enterprise/-/25122.html