MeCabにユーザー辞書を追加

DITAに関する技術文書を、MeCab形態素解析エンジンを組み込み済みのhtmlsearchプラグインに食わしてみましたが、やはり専門用語がうまくヒットしません。そこで、下記ページの説明に従って、DITA技術文書用のユーザー辞書を作りました。

http://mecab.sourceforge.net/dic.html

辞書の元となるCSVファイルの中身は、こんな感じです。

コンセプト・トピック,-1,-1,10,名詞,一般,*,*,*,*,コンセプト・トピック,コンセプト・トピック,コンセプト・トピック
タスク・トピック,-1,-1,10,名詞,一般,*,*,*,*,タスク・トピック,タスク・トピック,タスク・トピック
リファレンス・トピック,-1,-1,10,名詞,一般,*,*,*,*,リファレンス・トピック,リファレンス・トピック,リファレンス・トピック
汎用トピック,-1,-1,10,名詞,一般,*,*,*,*,汎用トピック,ハンヨウトピック,ハンヨウトピック
用語集トピック,-1,-1,10,名詞,一般,*,*,*,*,用語集トピック,ヨウゴシュウトピック,ヨウゴシュウトピック
ダブリン・コア・メタデータ,-1,-1,10,名詞,一般,*,*,*,*,ダブリン・コア・メタデータ,ダブリン・コア・メタデータ,ダブリン・コア・メタデータ
DCメタデータ,-1,-1,10,名詞,一般,*,*,*,*,DCメタデータ,ディーシーメタデータ,ディーシーメタデータ
特殊化,-1,-1,10,名詞,一般,*,*,*,*,特殊化,トクシュカ,トクシュカ
トピック・タイプ,-1,-1,10,名詞,一般,*,*,*,*,トピック・タイプ,トピック・タイプ,トピック・タイプ
ブックマップ,-1,-1,10,名詞,一般,*,*,*,*,ブックマップ,ブックマップ,ブックマップ
関連テーブル,-1,-1,10,名詞,一般,*,*,*,*,関連テーブル,カンレンテーブル,カンレンテーブル
関連リンク,-1,-1,10,名詞,一般,*,*,*,*,関連リンク,カンレンリンク,カンレンリンク

こうして作ったユーザー辞書を加えて、DITA-OT htmlseachプラグインXHTMLをビルドしたところ、下図のようにバッチリ動作しました \(^o^)/

後は、検索にヒットしたテキストをハイライトできるようになれば、十分実用に耐えると思います。