芋の独り言

当ブログへのアクセスは当ブログのプライバシーポリシーに同意したものとみなします.

WSLでNeologd辞書をWidonws環境に

kusoimox.hatenablog.jp でやっていることをWSLでやるだけなんですが, wgetのトコロで以下のエラーが出て止まっちゃいました...

wgetでは厳しそう. 一度止まっちゃうとMakefile全体の処理が止まってしまう. wgetをどうしても使いたいわけではないので別のコマンドを妻います.

qiita.com

以上サイトで説明されているaria2cコマンドでNeologd辞書のダウンロードを行います. それ以外はほぼほぼ同じ. とりあえずWSLで使うにあたって新規で書いたMakefileを以下に示します.


install:
    aria2c -x5 https://github.com/neologd/mecab-ipadic-neologd/tarball/master
    unar neologd-mecab-ipadic-neologd-*.tar.gz
    rm -rf neologd-mecab-ipadic-neologd-*.tar.gz
    aria2c -x5 https://github.com/neologd/mecab-unidic-neologd/tarball/master
    unar neologd-mecab-unidic-neologd-*.tar.gz
    rm -rf neologd-mecab-unidic-neologd-*.tar.gz
    # csvファイルに変換  
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/mecab-user-dict-seed.*.csv.xz > neologd-dict/mecab-ipadic-user-dict-seed.csv
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-adjective-exp-dict-seed.*.csv.xz > neologd-dict/neologd-adjective-exp-dict-seed.csv
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-adjective-std-dict-seed.*.csv.xz > neologd-dict/neologd-adjective-std-dict-seed.csv
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-adjective-verb-dict-seed.*.csv.xz > neologd-dict/neologd-adjective-verb-dict-seed.csv
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-adverb-dict-seed.*.csv.xz > neologd-dict/neologd-adverb-dict-seed.csv
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-common-noun-ortho-variant-dict-seed.*.csv.xz > neologd-dict/neologd-common-noun-ortho-variant-dict-seed.csv
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-date-time-infreq-dict-seed.*.csv.xz > neologd-dict/neologd-date-time-infreq-dict-seed.csv
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-ill-formed-words-dict-seed.*.csv.xz > neologd-dict/neologd-ill-formed-words-dict-seed.csv
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-interjection-dict-seed.*.csv.xz > neologd-dict/neologd-interjection-dict-seed.csv
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-noun-sahen-conn-ortho-variant-dict-seed.*.csv.xz > neologd-dict/neologd-noun-sahen-conn-ortho-variant-dict-seed.csv
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-proper-noun-ortho-variant-dict-seed.*.csv.xz > neologd-dict/neologd-proper-noun-ortho-variant-dict-seed.csv
    sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-quantity-infreq-dict-seed.*.csv.xz > neologd-dict/neologd-quantity-infreq-dict-seed.csv
    sudo xz -dc neologd-mecab-unidic-neologd-*/seed/mecab-unidic-user-dict-seed.*.csv.xz > neologd-dict/mecab-unidic-user-dict-seed.csv
    # mecabにneologd辞書をインストール
    sudo neologd-mecab-ipadic-neologd-*/bin/install-mecab-ipadic-neologd -n -a -y
    sudo neologd-mecab-unidic-neologd-*/bin/install-mecab-unidic-neologd -n -y

以上をWindowsの分かりやすい場所のフォルダに作成して起き, 作成後にWSLでそのフォルダの場所に移動してsudo make実行でNeologd辞書(csv形式)が入手できます. Neologd辞書(csv形式)が第一の目標だったので,辞書のMecabへの登録は順序として最後にしています. 通信のせいかたまに止まっちゃうのでね~

また,以上のスクリプトをコピペして実行すると”TABじゃなくて空白だよ!”的なエラーが出ることがあります. 以下のサイトのような感じで. blog.livedoor.jp その場合は指摘通りに空白をTABにしていきます. WSLでnanovimとかで編集すればよいでしょう. 空白になっている部分はおそらくinstall:以降の行の最初の部分なので, 空白消去してTABキーを押せばおkです~

実行後Windows側からフォルダを開くとNeologd辞書(csv形式)を開くことができます. csv形式なのでテキストエディタで読み込むことができます. これで目視で辞書にどんな言葉が入っているのか確認できたり, Windows側のプログラミング環境で用いることができますね. 例えばPythonでPandasを使えばスクリプト内でデータを扱うことができますね.

Windows側のMecabで使いたい方は別の方のサイト記事を見てくださいね~