MeCab単語の追加
先日のRMeCabのインストールに引き続き、MeCabの辞書へ単語の追加をしました。http://mecab.sourceforge.net/dic.htmlを参考にしています。
システム辞書とユーザ辞書、二つの追加方法がありますが、今回はユーザ辞書への追加をします。
disease.csvというファイルを準備し、このファイルに書かれている単語を辞書に追加します。disease.csvの文字コードはutf-8です。
まず、disease.csvがあるフォルダに移動し、辞書のコンパイルをします。私の場合、辞書も文字コードはutf-8であるため、コンパイルは以下のように実行します。
$ /usr/local/libexec/mecab/mecab-dict-index -d/usr/local/lib/mecab/dic/ipadic -u disease.dic -f utf-8 -t utf-8 disease.csv
各オプションは
-d DIR: システム辞書があるディレクトリ
-u FILE: FILE というユーザファイルを作成
-f charset: CSVの文字コード
-t charset: バイナリ辞書の文字コード
とのことです。文字コードの指定、ファイル名などは必要に応じて変更しましょう。
disease.dicが作成されたことを確認します。
$ ls disease.csv disease.dic
/usr/local/etc/mecabrcに作成した辞書を追加します。一般ユーザではmecabrcを変更する権限が無いため、sudoコマンドで実行します。編集にはemacsを使用しました。
$ sudo emacs /usr/local/etc/mecabrc
mecabrcに以下の一行を追加します。
userdic = ***/disease.dic
***はdisease.dicがあるフォルダの絶対パスを記入します。
MeCabの動作の確認をします。辞書に新たに追加した単語を入力して、結果が正しく返ってくるか確認しましょう。