kusoimox.hatenablog.jp
でやっていることをWSLでやるだけなんですが,
wget
のトコロで以下のエラーが出て止まっちゃいました...
- wgetコマンドでsegmentation fault (core dumped)が出たときの対処法(続きからダウンロード再開) - Qiita
- wgetでsegmentation faultが出たときの対症療法 - minus9d's diary
wget
では厳しそう.
一度止まっちゃうとMakefile全体の処理が止まってしまう.
wget
をどうしても使いたいわけではないので別のコマンドを妻います.
以上サイトで説明されているaria2c
コマンドでNeologd辞書のダウンロードを行います.
それ以外はほぼほぼ同じ.
とりあえずWSLで使うにあたって新規で書いたMakefileを以下に示します.
install:
aria2c -x5 https://github.com/neologd/mecab-ipadic-neologd/tarball/master
unar neologd-mecab-ipadic-neologd-*.tar.gz
rm -rf neologd-mecab-ipadic-neologd-*.tar.gz
aria2c -x5 https://github.com/neologd/mecab-unidic-neologd/tarball/master
unar neologd-mecab-unidic-neologd-*.tar.gz
rm -rf neologd-mecab-unidic-neologd-*.tar.gz
# csvファイルに変換
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/mecab-user-dict-seed.*.csv.xz > neologd-dict/mecab-ipadic-user-dict-seed.csv
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-adjective-exp-dict-seed.*.csv.xz > neologd-dict/neologd-adjective-exp-dict-seed.csv
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-adjective-std-dict-seed.*.csv.xz > neologd-dict/neologd-adjective-std-dict-seed.csv
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-adjective-verb-dict-seed.*.csv.xz > neologd-dict/neologd-adjective-verb-dict-seed.csv
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-adverb-dict-seed.*.csv.xz > neologd-dict/neologd-adverb-dict-seed.csv
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-common-noun-ortho-variant-dict-seed.*.csv.xz > neologd-dict/neologd-common-noun-ortho-variant-dict-seed.csv
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-date-time-infreq-dict-seed.*.csv.xz > neologd-dict/neologd-date-time-infreq-dict-seed.csv
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-ill-formed-words-dict-seed.*.csv.xz > neologd-dict/neologd-ill-formed-words-dict-seed.csv
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-interjection-dict-seed.*.csv.xz > neologd-dict/neologd-interjection-dict-seed.csv
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-noun-sahen-conn-ortho-variant-dict-seed.*.csv.xz > neologd-dict/neologd-noun-sahen-conn-ortho-variant-dict-seed.csv
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-proper-noun-ortho-variant-dict-seed.*.csv.xz > neologd-dict/neologd-proper-noun-ortho-variant-dict-seed.csv
sudo xz -dc neologd-mecab-ipadic-neologd-*/seed/neologd-quantity-infreq-dict-seed.*.csv.xz > neologd-dict/neologd-quantity-infreq-dict-seed.csv
sudo xz -dc neologd-mecab-unidic-neologd-*/seed/mecab-unidic-user-dict-seed.*.csv.xz > neologd-dict/mecab-unidic-user-dict-seed.csv
# mecabにneologd辞書をインストール
sudo neologd-mecab-ipadic-neologd-*/bin/install-mecab-ipadic-neologd -n -a -y
sudo neologd-mecab-unidic-neologd-*/bin/install-mecab-unidic-neologd -n -y
以上をWindowsの分かりやすい場所のフォルダに作成して起き,
作成後にWSLでそのフォルダの場所に移動してsudo make
実行でNeologd辞書(csv形式)が入手できます.
Neologd辞書(csv形式)が第一の目標だったので,辞書のMecabへの登録は順序として最後にしています.
通信のせいかたまに止まっちゃうのでね~
また,以上のスクリプトをコピペして実行すると”TABじゃなくて空白だよ!”的なエラーが出ることがあります.
以下のサイトのような感じで.
blog.livedoor.jp
その場合は指摘通りに空白をTABにしていきます.
WSLでnano
やvim
とかで編集すればよいでしょう.
空白になっている部分はおそらくinstall:
以降の行の最初の部分なので,
空白消去してTABキーを押せばおkです~
実行後Windows側からフォルダを開くとNeologd辞書(csv形式)を開くことができます. csv形式なのでテキストエディタで読み込むことができます. これで目視で辞書にどんな言葉が入っているのか確認できたり, Windows側のプログラミング環境で用いることができますね. 例えばPythonでPandasを使えばスクリプト内でデータを扱うことができますね.