htmlsearchの日本語対応

htmlsearchが日本語の分かち書きを正しく行えるようにする方法を調べていたら、DocBookのFull Text Searchについて書いたページを見つけました。

http://www.thingbag.net/docbook/gsoc2010/doc/content/index.html

どうも、このページで説明しているサーチエンジンと、htmlsearchのサーチエンジンは出元が同じようです。このページを読むと、htmlseachのしくみやカスタマイズの方法が分かりそう。Apacheプロジェクトの中で、Lucense search engineというのが開発されていて、このサーチエンジンを使えばＣＪＫの全文検索が実現できるらしい。

http://lucene.apache.org/java/3_0_2/gettingstarted.html#Getting%20Started

DITA-OT1.5.2 M6の日本語対応が一通り終わったので、しばらくhtmlsearchの改良に取り組んでみようと思います。