芋の独り言

当ブログへのアクセスは当ブログのプライバシーポリシーに同意したものとみなします.

Ubuntuに言語処理関連ツールをインストールする方法まとめ①

Ubuntu最新版に日本語形態素解析器などをインストールしていきたいと思います.
実行する環境として以下が挙げられます.

とはいってもどちらもやり方は変わらないと思います.

※追記:”クリック”と書いたとこは”ダブルクリック”だったかもしれないです.”クリック”で反応しない時は”ダブルクリック”をしてください.
※2020/06/16現在:【HTML&CSS】目次作成しよう【ジャンプ・枠で囲うなど加工】 | すんすけブログなどを参考に目次部分を変更

Step1:環境準備

Step1-1はαかβのいずれかをやっていただければokです.それではやっていきましょう!

Step1-1α

Step1-1α-1:Windows仮想マシンをインストールしてUbuntu環境を手に入れる

仮想環境で使うISOイメージを Ubuntu Desktop 日本語 Remixのダウンロード | Ubuntu Japanese Team から最新バージョンのISOファイルをダウンロードして使ってください. OSとしてUbuntuを使いたい場合はダウンロードしたISOファイルでDVDやUSBをインストールメディアにしましょう.

VMwareを使う

Windows 10で様々なOSを楽しむ【VMware Workstation Player】 PCまなぶ を参考にしました.詳しい手順はこちらを参考にしてください.
仮想マシンVMware Workstation Player のダウンロード | VMware | JP より、Windows版をクリックし、exeファイルをダウンロードしましょう. ダウウンロードしたexeファイルをクリックして、実行します。たいていの項目はチェックかokボタン(だったと思います...)をクリックしてインストールを完了します.
インストールし終わったら,デストップに作成されているアイコンをクリックして,起動させましょう.その後の手順も上記サイトの通りです.進めていくと,仮想マシン上でUbuntuのインストールが始まるので,従っていってください. 異なる点としましては

  • UbuntuのISOイメージを使う
  • インストール先はWindowsシステムが入ってない容量が大きめ(TB以上の)のローカルディスクにしておいた方がよい.システムとは別にしておく.
    →でないと,仮想マシン上のUbuntuの容量がすぐに少なくなり,警告が出ます.言語処理関連のツールを入れていったら,結構容量使う?ので余裕をもって設定しましょう.そうしないと,Ubuntuをインストールし直すことになるかも...
  • 設定で,仮想マシンの使用メモリ量・プロセッサ数・ハードディスク全て推奨域を大きく上回る数値にしてください.推奨最大値ぐらいでいいんじゃぁないですかね?設定自体はインストール後からもできます.
    →こうしないと,この後にやるGinzaインストールが途中で強制終了してしまいます.メモリ量を大きくすると,うまくインストールできました.なので,数値は出来るだけMAXに近い数字にしておいたほうが無難かもしれません…
    f:id:kusoimox:20190611101901p:plain
    仮想マシンの設定


    f:id:kusoimox:20190611101911p:plain
    起動直後のVMwareウィンドウ.新規作成か仮想マシンを開くを選択する.
    f:id:kusoimox:20190611101914p:plain
    新規作成でのユーザの設定
    f:id:kusoimox:20190611101922p:plain
    インストール中の画面

VirtualBoxを使う

以下のサイトに手順がすべて載っていますので,その通りにやってください.
eng-entrance.com
仮想マシンのダウウンロードは Downloads – Oracle VM VirtualBox から”VirtualBox 6.0.8 platform packages”(その時の最新版)の”Windows hosts”をクリックして,exeファイルをダウンロードします.このexeファイルを実行していけばVirtualBoxがインストールできるわけですね.
そして,もう一つ,同サイトから”VirtualBox 6.0.8 Oracle VM VirtualBox Extension Pack”(その時の最新版)をダウンロードし,ダウンロードしたVBOX-EXTPACK ファイルをクリックすれば,VirtualBoxマネージャーが立ち上がり,インストール云々聞かれるので,それでインストールすればよいかと思います.
マシンのメモリ等の設定は上のVMwareと同じく設定すれば問題ないかと思います.ただし,仮想マシンへのOSインストールは次のStep1-1βでOSをインストールするのと 同じステップをたどらなければならず,インストールにも時間がかかります.その点,VMwareではUbuntuの場合はインストールが簡略化されてるので,すぐに使えます.
この段階で,すでにVMwareと比べるとやることが多くて面倒です.まだ,VirtualBoxではやることがあります.VMwareでは特に設定をいじらなくても,ホストOSとゲストOS間のコピペを 共有したりウィンドウサイズの変更もできるのですが, VirtualBoxではゲストOSで少しコマンドを打つ必要がありそうなんです.そうしないと,コピペとかができなかったです.
え~と,以下はUbuntu以外(Ubuntuディストリビューションも含む)をゲストOSとした場合,もしくは”VBoxGuestAddition.iso”がすでに選択されているときにやることです. Ubuntuのときは,以下のサイトにあるように,”Guest Addition CD イメージのインストール”だったかな?を選択すると,おそらくですが,以下と同じ作業が自動で始まります.作業終了後, 再起動すれば,コピペ等ができるようになってますね.
参考にしたサイトは
Virtualbox上のCentOSにGuest AdditionsをインストールしてWindowsとフォルダーを共有させる - Qiita
VirtualBoxにGuestAdditionsをインストールする - Qiita
VirtualBox-5.0のインストールとGuest Additions CDの使い方 - あれこれ備忘録@はてなブログ
VirtualBoxにあるCentOS7で[Insert Guest Additions CD image...]を押下したら Unable to insert the virtual optical disk となった時の確認方法 - Qiita
です.
まず,VirtualBoxマネージャーから作成したUbuntu仮想マシンの「設定」>「ストレージ」をクリックして,”Controller IDE”に”VBoxGuestAddition.iso”が選択されていたら, 特にやることはないので,以下のコマンドをホストOS(この場合Ubuntu)で打ち込んで実行してください.

$ sudo mkdir -p /mnt/cdrom
$ mount -r /dev/cdrom /mnt/cdrom
$ ls /mnt/cdrom
# VBoxLinuxAdditions.runがあることを確認
$ sh /mnt/cdrom/VBoxLinuxAdditions.run
$ reboot


”VBoxGuestAddition.iso”は配布もされてるようで, Index of http://download.virtualbox.org/virtualbox に各バージョンのものが用意されてます.とはいえ,最新版はないようですし,最新版のVirtualBoxなら自動で入っていると思うので,特に必要はなさそうですね.

共有フォルダ

VMware

共有フォルダの設定はVirtualBoxのほうが簡単かもしれません...
参考↓

まず,ホストOS側から共有フォルダを選択して設定しましょう.

f:id:kusoimox:20190717165505p:plain
共有ファイル追加ウィンドウ

続いて,ゲストOS(Ubuntu)側を起動し,「Playerメニュー」 > 「管理」 > 「VMware Toolsの再インストール」をクリックすると,ファイルを表示するかどうかみたいな表示が出るので,クリックします. 要は,/media/hgu/VMware Toolsを開くので,もしかしたらこの操作でなくともよいのかもしれません.
/media/hgu/VMware Tools内の"VMwareTools-10.3.10-12406962.tar.gz"を適当な場所にコピーします.デスクトップかドキュメント辺りにコピーしておくのが無難でしょうかね~ コピーしたら,”VMwareTools-10.3.10-12406962.tar.gz”をその場で解凍します.そして,その解凍したフォルダ内にcdコマンドで移動し,

$ sudo perl /vmware-tools-distrib/vmware-install.pl
$ sudo perl /vmware-tools-distrib/bin/vmware-config-tools.pl
$ reboot

を実行します.実行すると,YesかNoを答えることになるので,全てYesと入力してEnterキーを押せばいいいでしょう. すると,/mnt/hgfsディレクトリ下に共有フォルダの名前があるはずです.とはいえ,この時点ではrootのみが権限を持っているということと,デフォルトのファイルアプリでは簡単に開けないというか...

VirtualBox

まず,Virual Box マネージャーの”共有フォルダー”をクリックして開き,ホストOS上に作ったフォルダを指定して共有フォルダに追加します.
というわけで,ホストOS上にフォルダを作っておかねばならないわけですが,分かりやすくデスクトップ上に”sharefolda”と名付けて作っておくとよいかと思います.

sudo gpasswd --add ユーザ名 vboxsf

参考

Step1-1α-2:WSLでWindows上にUbuntu環境CUIを構築

手順は以下のサイトにあります. qiita.com 以上から, まず,Windows Subsystem for Linux (Beta)をWindowsの設定からチェックしてインストール+再起動後に,以下のサイト(Microsoftストア)からUbuntuCUIアプリをダウンロードします. その後の手順も以上のサイトを参考にやっていきましょう. www.microsoft.com

しかしながら,VSCodeのステップはWSLではできないかも. WSLでなく,Windows上にVSCodeをインストールし,Windows上のVSCodeUbuntuアプリのパスを通すのが良いようです. WSL上でVSCodeをインストールし起動しようとすると以下のように表示されるので.

To use VS Code with the Windows Subsystem for Linux, please install VS Code in Windows and uninstall the Linux version in WSL. You can then use the 'Visual Studio Code' command in a WSL terminal just as you would in a normal command prompt.
Do you want to continue anyways ? [y/N]

proxyある場合はStep1-2をUbuntuアプリ初回起動時にやっておき,ほぼ同様の内容を.bashrcにも書いておきます. WSL(Windows Subsystem for Linux)のProxy設定方法 | 組込みエンジニアの思うところ のような感じで.bashrcに追記すれば,wgetなどのコマンドが正常に動くようになります.

また,アプリのレビューに日本語表示化の方法を書いてくださっている方がいました. 有難く,コピペさせて使わせていただきました. 具体的には,Ubuntuの初期設定を完了した後に,

~$ sudo apt-get install -y language-pack-ja 
~$ sudo update-locale LANG=ja_JP.UTF-8
~$ exit

をコマンド入力.サイド起動すると, 言語設定が"ja_JP.UTF-8"になっています. これで何が変わるのかいまいち分かりませんが...

基本設定が終わったら,Anaconda以降の手順は仮想マシンLinuxマシンと同様でいいはずです. Pythonpyenvでインストールしている方がほとんどのようですが, Step2のようにshファイルをダウンロードし,それをbashコマンドでインストールするやり方でPython環境が作れたので,各個人で好きな方法で行えばよいかと思います.

基本的にコマンドプロンプトと操作の感じは一緒ですね. 文字を選択して,Enterを押せばコピーできますし, 逆にコピペしたい場合は右クリックでクリップボードにコピーされていた内容が入力できるようですね.

ここまで操作では,Ubuntuアプリの環境にWindows側からアクセスしづらいかと思います. そこで,Windows側のドキュメントのところ(ぶっちゃけドコでもいいんですが)に適当に名前を付けたフォルダを作成し,そこをアプリ起動時のカレントディレクトリにしましょう. 分かりやすいように"Ubuntu"というフォルダ名でやります.

~$ sudo nano .bashrc

# .bashrcの一番下に以下を追記
cd $(wslpath "C:\Users\ユーザ名\Documents\Ubuntu")

これで起動時に作業ディレクトリが以上のパスに自動で移動されます. ただし,cdを使えばUbuntu側のデフォルトのディレクトリに移動します.

JUMAN++のインストールにおいて

config.h:169:16: error: ‘std::rpl_malloc’ has not been declared
 #define malloc rpl_malloc
                ^
config.h:172:17: error: ‘std::rpl_realloc’ has not been declared
 #define realloc rpl_realloc

というエラーが起きてうまくいきませんね... OSS EXPO: rpl_mallocとrpl_realloc とあるんですが,よく分かりません... ”jumanpp-1.02/src”に”config.h”があるんですが, 以上のサイトに書いてあるのをコピペしただけでは解決できませんでした... 何かモジュールを入れ忘れているのかもしれません.

※追記:2020/05/24現在ではJuman++は2.0.0-rc3がリリースされており, このバージョンならば問題なく導入できます. リンク等はJUMAN++の項目に追記していますので参照していただければと思います.

参考

pyennvでのPython環境の準備

Step1-1β:Ubuntuをインストールする

Ubuntuのインストールで最も説明しなければならないことは,インストールメディアの作成の仕方かと思われます. 日経Linuxの付録でインストールメディアそのまのとUbuntuの基本がまとめられたものが付いてたときがあって,私はUbuntuインストールにそれを使いました.Ubuntu以外ではChaletOS使ってます.Zorin試したこともありましたねぇ…Linuxのインストール自体は大分前にやったことなので,説明が雑かもしれませんので,ご了承くださいネ.
Ubuntuが付録で付いてた日経Linux
えーっと,ではインストールメディアを作成しましょう.ここではWindows上で作成する方法を説明します. 作成方法として,DVDに焼くか,USBに焼くかで方法が違います.その前に,使うISOファイルを同じくUbuntu Desktop 日本語 Remixのダウンロード | Ubuntu Japanese Teamからダウンロードしましょう.

  • DVD:Windows標準で入ってるソフト「isoburn.exe」を使います.
    これを使うにはisoburn "ISOファイルがあるアドレス"コマンドプロンプトに入力してください.すると,以下のようにウィンドウが表示されるので,DVDに書き込んでください.
    f:id:kusoimox:20190611180950p:plain
    isoburnによるインストールメディア作成
  • USB:Win32 Disk Imagerなどのライティングソフトをダウンロード・インストールして使います.
    ファイルアイコンをクリックし,ISOファイルを選択します.Deviceプルダウンメニューよりインストール先のUSBを指定します.準備ができたらWriteボタンをクリックして書き込んでください.
    f:id:kusoimox:20190611180953p:plain
    Win32 Disk Imagerによるインストールメディア作成

言っておきますが,これをやるとDVDやUSBの中身はISOイメージを書き込むために初期化されますので,データが入ってないものを使いましょうね.
USBにインストールメディアを作成した場合,インストール先のPCのBIOS設定を編集する必要が有ります.大抵のPCでは起動直後(Windowsのロゴが出る前,メーカーのロゴが出た瞬間)にF2ボタンを押すとBIOS設定の画面に飛べたかと思います.もしかしたら,VAIOの場合はF11ボタンかもしれません.
BIOS画面が表示されたら,左右のカーソルキー(でいいのかな?BIOS画面ではマウス操作は使えません)でBootメニューにし,以下の操作をしてください.

  • External Device Mode を Enabled にする
  • Boot Priority における順番を External Device(USBのこと)を F5/F6 キーで最上位にする

この設定変更を保存し,再起動します.

それでは,インストールメディアの準備ができたので,インストール先のPCを起動する前に,そのPCにDVDなら入れる,USBならぶっ刺しておきます.その後にPCを起動すると,多少時間がかかった後(画面には何か文字が表示されていくかと思われますが…その時には特に何もしないでおきましょう),Ubuntuとロゴが表示され,その下に選択しが表示されるかと思います.選択肢があったら”試す”(動くかの確認)か”インストール”を選択し,インストールしていきましょう.こうなれば後は画面に表示されるとおりに色々打ち込んだりしていくだけです.これでインストールできるかと思います.
いくつか参照したサイトがあったのですが,一つしか分からないので以下に上げておきます.
Windows PCにLinuxをインストールして再利用する (2/2):中古PC活用 - @IT

Step1-2:proxyの設定

ちなみに、proxyが設定されてる場合は、
Ubuntuの設定→ネットワーク→ネットワークプロキシ
の歯車ボタンをクリックして,

f:id:kusoimox:20190611104633p:plain
Ubuntuの設定→ネットワーク→ネットワークプロキシ
手動で設定(各々のネットワーク閑居で設定されているproxyサーバを入力)してください.HTTPとHTTPSそれぞれ入力してください.それ以外も設定されている場合はそれも入力してください.http://みたいのは入力しなくていいです.たぶん...
f:id:kusoimox:20190611104628p:plain
ネットワークプロキシの設定
これだけではブラウザが使えるようになるだけで,sudo apt-get系のコマンドが使えません.
そこで,端末を起動し,コマンド入力していきます.
最初にprintenv http_proxy https_proxyで現在のプロキシ設定を確認してみましょう.違うプロキシになってたら,上の操作をやり直すとかして,設定を直してください.
これだけではまだ使えないので,sudo nano /etc/apt/apt.confでapt.confを編集します.nanoで開くと最初は何も書かれていません.そこで以下を入力してください.

Acquire::http::Proxy "http://proxy server:port";
Acquire::https::Proxy "http://proxy server:port";

入力後は

  • Ctrl+Oで書き込み保存し,Ctrl+Xで終了
  • Ctrl+Xを押して,Y(Yes)を選択入力して保存

のどっちかをやってEnterキーを押したらnanoの画面が閉じ,コマンド入力に戻りマス.これでsudo apt-get installなどが使えるようになったはずです. 以下を参考にしました.
Proxy環境下で「apt update」ができないときのメモ - Qiita
apt-getコマンドをProxy経由で使用する - hogehoge foobar Blog Style Beta

Step2:UbuntuにAnacondaをインストール

各書籍にも書いてありますが、ここでも手順を書いておきます.
詳しい導入方法は以下のサイトを参考にするといいかも,
【初心者向け】Ubuntu18.04にAnacondaを導入しよう! | 侍エンジニア塾ブログ(Samurai Blog) - プログラミング入門者向けサイト
以下のコマンドを端末に入力してください.
Individual Edition | Anacondaより,ブラウザ経由でダウンロードしてもいいです.その場合はcdでダウンロードファイルの場所に移動してから bash以降をやってください.

$ cd
$ wget https://repo.anaconda.com/archive/Anaconda3-2019.03-Linux-x86_64.sh
$ bash Anaconda3-2019.03-Linux-x86_64.sh
$ export PATH=/home/ユーザ名/anaconda3/bin:$PATH

bashを実行すると、Anacondaの確認事項みたいのがずらーっと出てくるので、Enterをひたすら連打してください。
YesかNoか答えるとこは、基本Yesで問題ないと思います。
そして、重要なのがexportでbinフォルダの場所のパスを通しておくことです。以下も同じくパス通しが必要になってきます。
(注意)”ユーザ名”は各々のユーザ名に変えて入力してください.そのままコピペで実行するとできません.”ユーザ名”に関しては以下でも同じくやってください.ただし,”usr”はそのままです.
また,Anacondaのバージョンは最新のバージョンに変えてください.以下の形態素解析器のインストールでも同様です.

sudo apt-getのときの注意みたいなもの

sudo apt-getで何かパッケージを入力すると,途中で以下のように表示されます.

この操作後に追加で ~ MB のディスク容量が消費されます。
続行しますか? [Y/n] 

~に具体的な数値が入ります.ここは迷わずYもしくはyと入力してEnterキーを押すだけで構いません.

VSCodePython環境を整えておく

Anacondaをインストールすると,途中でVSCodeVisual Studio Code)をインストールするか聞きてくるので,yesで答えていいでしょう.すると,VSCodeも自動で入れてくれます.しかも,以下のPythonの基本的な拡張機能も入れてくれています.

他にも拡張機能を入れて使いやすくしておきましょう.
拡張機能は左にあるExtensionボタンをクリックするか, VisualStudioCodeでPython環境構築 - Qiita に書いてありますようにShift+Ctrl+Xで拡張機能タブを開きましょう.検索タブにPythonといった検索ワードを入れると色々パッケージが表示されるので,気に入ったものを各々クリックして,インストールボタンをクリックしてインストールしてください.
最初に(やらなくてもいいのですが…)日本語化として,”Japanese Language Pack for Visual Studio Code”というパッケージを インストールします.インストールすると再起動してくれと言われるので,その通りにやると,ほぼ日本語で表示されるようになってます.
他に入れるパッケージとして, VSCodeでPython(Anaconda)実行環境を作る - ぺーぱーふぇいす で紹介しております以下のパッケージをインストールしておきます.

Pythnoのパスに関して,当然通ってないと使えません.通ってるかどうかに関して,下のバーにPythonのバージョン(マウスカーソルを近づけるとAnacondaの中のPython)が表示されていたらパスが通っています.ので,VSCodePythonを実行できます.
パスが通ていない場合, VS Code で Anaconda の Python デバッグ 環境構築(Visual Studio Code) - BEACHSIDE BLOG に従ってやってください.とはいえ,本記事ではAnacondaのPythonにパスを通したいので,Python: Python Pathをユーザ設定から探し,パスを”/home/user/anaconda3/bin/python”にしましょう. パスがこれになってる場合はいじる必要なしです.

後でVSCodeを入れるには?

自動で入るといったんですが,仮想マシン下では入らないかもです(気づかずnoと入力していたのかもしれませんが…).以下のサイトを参考にするとよいかもです.
Ubuntu / DebianにコマンドでVSCode (Visual Studio Code) をインストールする方法 | カレリエ
UbuntuにVSCodeをインストールする3つの方法 - Qiita

$ curl -L https://go.microsoft.com/fwlink/?LinkID=760868 -o vscode.deb
$ sudo apt install ./vscode.deb

これでVScodeはインストールできたので,以上と同じようにパッケージのダウンロードやパスの設定を行ってください.

Step3:日本語形態素解析器のインストール

最初にやっておくべきこと(ほとんどの形態素解析器のインストールで共通して絶対必要)

前提条件として

$ sudo apt-get install libboost-dev
$ sudo apt-get install build-essential
$ wget chasen.org/~taku/software/darts/src/darts-0.32.tar.gz
$ unar darts-0.32.tar.gz
$ cd darts-0.32
$ ./configure
$ sudo make
$ sudo make install

をやっておきましょう.これで必要なライブラリを入れておきます.
sudo apt-get install build-essentialUbuntuMeCabなどのコンパイルに使うgcc-c++を入れるためのコマンドで, Ubuntu に gcc-c++ を入れる方法 | ウェブルを参照したものです.
gcc-c+はyumコマンドでも入れられたかも...とはいえ,Ubuntuではyumコマンドが使えない,というより入ってないので, Ubuntuでyumコマンドが使いたい時は - Qiitaより,sudo apt-get install yumする必要があります.
また,フォルダの解凍にunarを使うので,入ってない場合は,sudo apt-get install unarでインストールしてください. unarについては以下を参照してください.
メジャーな圧縮ファイルの解凍用にunarコマンドが便利 - Qiita
【Ubuntu】日本語を含むzipファイルを文字化けせずに解凍する方法 - あずみ.net
unarが入れられなければ,tar -zxvf(tar.gzの場合)やtar Jxfv(tar.xzの場合)を代わりに使ってください.
linux tar.gzの圧縮・解凍 メモ - Qiita
Linux で tar.xz 形式のファイルを解凍する - Qiita

dartsについてはこちらを参照してください

また,sudo apt-get install libboost-devが使えない環境下では別の方法で入れてやる必要があります(Step1-2の” proxyの設定”の頁でも駄目だった場合).そこで, boost公式サイトのダウンロードサイトより,最新版のtar.gzファイルをダウンロードし,tar -zxvfで 解凍して,解凍した場所でビルドします.手順等を apt-getでBoost C++を入れるときにハマった話 - スラきちの野望 より参照させていただきました.

$ cd //boost_1_70_0
$ ./bootstrap.sh
$  ./b2
$ sudo ./b2 install

`sudo apt install unar`で`unar`が入らない場合

エラーメッセージを見てたら,どうやら無理やり入れれそうです.

$ wget http://jp.archive.ubuntu.com/ubuntu/pool/main/g/gcc-9/libquadmath0_9.1.0-2ubuntu2~19.04_amd64.deb 
$ sudo dpkg -i --force-depends  libquadmath0_9.1.0-2ubuntu2~19.04_amd64.deb
$ sudo apt --fix-broken install
$ sudo apt install unar

Ginza

$ cd
$ wget https://github.com/megagonlabs/ginza/releases/download/v1.0.2/ja_ginza_nopn-1.0.2.tgz
$ pip install ja_ginza_nopn-1.0.2.tgz

wgetしないで,pipだけでもいいのですが,途中で処理に失敗すると, 毎回ダウンロードをやって時間がかかってしまうので,先にローカルな場所にダウンロードしたほうが良いと思い, そうしました.かなりファイルサイズが大きそうなので,そうした方が確実だと思います.
端末以外は開かず,実行しているものは閉じたほうがいいのではないかと思います.私の環境では,Firefoxやファイルアプリを開いたままにしておくと,毎回処理が途中で強制終了してしまいました.おそらく,CPUやメインメモリにかなり負荷がかかると思われるので, 相当スペックが高いPCでなければGinzaのインストールだけにしておいた方が良いと思います. また,以下の方法で先にspaCyに必要なモジュールを全て入れてしまったほうがいいのかもしれません. 私の環境では中々入れられず,色々やった後に再度pipでインストールを試みたら,時間が少しかかりましたが, インストールできったぽいです.
ちなみに,condasudo pipではエラーっぽいのが出てインストールできなかったので, pipでインストールしましょう.
インストールが完了したかどうかは,Pythonでspacyをimportできたら大丈夫です.

spaCy単独でインストールする場合

$ conda config --add channels conda-forge
$ conda install spacy

Proceed ([y]/n)?と聞いてきたら,Yかyで答えましょう.
コマンドは以下のサイトからの引用です.
spaCy – 💫 PythonとCythonを使用した工業用の自然言語処理(NLP) – GitHubじゃ!Pythonじゃ!
とはいえ,この後にGinzaを入れようとすると,Ginza側で勝手にspacyをアンインストール して入れ直すみたいです.
また, https://spacy.io/models/ から察するに日本語のモデルは用意されていないので,日本語の処理をさせたかったら, Ginzaを入れるしかないですね…

Sudachi単独でインストールする場合

PythonでSudachiを使う-け日記-のまんまやれば,インストールできますので, 詳しくはこちらを参照してください.
まずは,Sudachipyをインストールします.

$ pip install -e git+git://github.com/WorksApplications/Sudachipy@develop#egg=Sudachipy
$ pip list | grep sudachipy

インストール後,Sudachiより辞書をダウンロードしてください.
ダウンロードしたら,フォルダを解凍します.
解凍したフォルダ内のsystem_full.dicをpip list | grep sudachipyによって示されるsudachipyが保存されたディレクトリに移動させます.
fullバージョン以外をダウンロードした場合は,ファイル名が若干異なります.要するに,systemがファイル名に含まれているものを移動させればよいです.

$ wget https://object-storage.tyo2.conoha.io/v1/nc_2520839e1f9641b08211a5c85243124a/sudachi/sudachi-dictionary-20190531-full.zip
$ unar sudachi-dictionary-20190531-full.zip -o <(pip list | grep sudachipy)
$ mv /home/ユーザ名/ダウンロード/sudachi-dictionary-20190531-full/system_full.dic /home/ユーザ名/src/sudachipy/resources/system.dic

ただし,” /home/ユーザ名/ダウンロード/sudachi-dictionary-20190531-full”と”/home/ユーザ名/src”は各々の環境で変えたほうが良いかもです. 要するに,解凍したsudachi-dictionary-20190531-fullフォルダのアドレスとsudachipyが入ってるアドレスを各々で調べて,コマンドの変更の必要があればそうしてくださいってことです.
これでSudachiが使えるようになりました.

Ginzaインストール後もSudachipyを使うには?

Sudachipyのインストール後にGinzaをインストールすると,sudachipyが使えなくなります.先にインストールしたSudachipyとは別に,Ginzaのインストール時にAnacondaの中にSudachipyが作成されてしまい,参照する辞書のパスが上手くと通らなくってしまうからだと思われます. 対策として以下を行います.

$ cp -r /home/ユーザ名/src/sudachipy/resources /home/ユーザ名/anaconda3/lib/python3.7/site-packages/sudachi-dictionary
$ sudo nano /home/ユーザ名/anaconda3/lib/python3.7/site-packages/sudachipy/config.py

nanoで編集しなくてもよいのですが,config.pyを以下のように編集します.
編集前

import os

SETTINGFILE = os.path.join(os.path.dirname(os.path.abspath(__file__)), os.pardir, "resources/sudachi.json")
RESOURCEDIR = os.path.join(os.path.dirname(os.path.abspath(__file__)), os.pardir, "resources")

↓↓↓
編集後

import os

SETTINGFILE = os.path.join(os.path.dirname(os.path.abspath(__file__)), os.pardir, "sudachi-dictionary/sudachi.json")
RESOURCEDIR = os.path.join(os.path.dirname(os.path.abspath(__file__)), os.pardir, "sudachi-dictionary")

要するに,resourcesの部分をsudachi-dictionaryに編集します.これでsudachipyが使えるはずです.

先にGinzaインストールした後にSudachipyコマンドを使えるようにするには?

Ginzaを先にインストールした場合,そのままではsudachipyは使えません.

$ cd
$ wget https://codeload.github.com/WorksApplications/SudachiPy/zip/develop
$ unzip develop
$ cd SudachiPy-develop
$ python setup.py build
$ python setup.py install

ここでsudachipyを端末に入力すると,FileNotFoundErrorが出ます.ので,以下続きをやります.

$ cp -r /home/ユーザ名/SudachiPy-develop/resources /home/ユーザ名/anaconda3/lib/python3.7/site-packages/sudachi-dictionary
$ sudo nano /home/ユーザ名/anaconda3/lib/python3.7/site-packages/sudachipy/config.py

resourcesの部分をsudachi-dictionaryに編集

$ cd
$ wget https://object-storage.tyo2.conoha.io/v1/nc_2520839e1f9641b08211a5c85243124a/sudachi/sudachi-dictionary-20190531-full.zip
$ unzip sudachi-dictionary-20190531-full.zip 
$ mv sudachi-dictionary-20190531/system_full.dic /home/ユーザ名/anaconda3/lib/python3.7/site-packages/sudachi-dictionary/system.dic

これでsudachipyが使えるようになりました.めちゃめちゃ苦労しましたよ…
仮想マシンもしくはproxyのせいでunargitなどがインストールできず,使えなかったのが痛かったです.
以下のサイトが参考になりました.
Python/setup.pyによるインストール - Glamenv-Septzen.net

JUMAN++

推奨ライブラリのインストール

$  sudo apt-get install gawk

$ wget http://ftp.yzu.edu.tw/nongnu/libunwind/libunwind-1.4-rc1.tar.gz
$ unar libunwind-1.4-rc1.tar.gz
$ cd libunwind-1.4-rc1
$ ./configure
$ sudo make
$ sudo make install

$ wget https://github.com/gperftools/gperftools/releases/download/gperftools-2.7/gperftools-2.7.zip
$ unar gperftools-2.7.zip
$ cd gperftools-2.7
$ ./configure
$ sudo make
$ sudo make install

$ wget https://dl.bintray.com/boostorg/release/1.70.0/source/boost_1_70_0.tar.gz
$ unar boost_1_70_0.tar.gz
$ cd boost_1_70_0
$ sh bootstrap.sh
$ sudo ./b2 install -j2 --prefix=/home/boost_1_70_0

これでいいのか,よく分からん...
sudo ./b2 install -j2 --prefix=/home/boost_1_70_0で以下のように表示される...

...failed updating 66 targets...
...skipped 20 targets...
...updated 15412 targets...

バージョン1のインストール

こちらを参考に,以下を実行していきます.
JUMAN++を触ってみた

$ cd
$ wget http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.02.tar.xz
$ unar -o src/ jumanpp-1.02.tar.xz
$ cd src/jumanpp-1.02/
$ ./configure
$ sudo make
$ sudo make install

これでJUMAN++がインストールできました.jumanppとコマンドを打って,形態素解析をやってみましょう.
"1.02"をインストールしてください.私は誤って"1.01"を最初にインストールしてしまい,ユーザ辞書の登録ができませんでした.もし,違うバージョンをインストールしても 上記のコマンドを行えば"1.02"がインストールされます.

バージョン2について

ファイルサイズが大きいのか,ダウンロードに失敗するかもしれません.その場合は, wgetコマンドで覚えておきたい使い方16個(+1個) | 俺的備忘録 〜なんかいろいろ〜に書いてあるように,wget -cで失敗したところから再度ダウンロードをしましょう.
もしくは, curlやwgetの数倍速い 爆速ダウンローダー aria2を使う - Qiitaに書いてある, aria2c -10xでダウンロードする必要があるかもしれないです.これを使うにはsudo apt-get install aria2Ubuntu環境にインストールする必要があります. こっちのコマンドではwgetのように新たに何か追記する必要はありません.ログが残っているのか,ダウンロードは失敗したところから再開されます. 中々,すべてダウンロードできない時は,繰り返しコマンドを実行しましょう.

とはいったものの,インストールの仕方がよく分からないです... また,ユーザ辞書の登録ができそうにないですね...とりあえず,バージョン"1.02"で問題ないかもしれません.

追記:バージョン2のインストール法

ユーザ辞書の登録を行うならバージョン1.02でしょうが,そうでなく,むしろ処理速度を重視するならば最新の バージョン2をインストールするほうが良いかもしれません.
最初に

sudo apt install cmake

cmakeを使えるようにします.また,インストールに必要なgccなどのバージョンが古い場合はアップデートしておくことを薦めます.
次に,以下のコマンドでメインフォルダを一括ダウンロードします.

$ cd
$ wget https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc2/jumanpp-2.0.0-rc2.tar.xz
$ unar jumanpp-2.0.0-rc2.tar.xz 

上記とは別の場所に,以下のファイルをダウンロードし,解凍します.

$ cd 別のディレクトリ
$ wget https://github.com/ku-nlp/jumanpp/archive/v2.0.0-rc2.tar.gz
$ unar v2.0.0-rc2.tar.gz

解凍した以上の”jumanpp-2.0.0-rc2”フォルダ内にあるファルダやファイルうち,いくつかを最初に/home/ユーザ名ディレクトリ上に作成された”jumanpp-2.0.0-rc2”フォルダにコピーします.コピーするフォルダ・ファイルは以下です.

  • ファルダ
  • ファイル
    • LICENSE
    • do_format.sh
    • make_release.sh

コピーの方法はコマンドでやってもいいと思います.とにかく最初の”jumanpp-2.0.0-rc2”フォルダでは欠損しているファイルやフォルダがコピーされればいいと思います.コピー出来たら,最初の”jumanpp-2.0.0-rc2”フォルダでコマンド実行です.移動も含めて以下に行うコマンドを載せます.

$ cd
$ cd jumanpp-2.0.0-rc2
$ mkdir bld 
$ cd bld
$ cmake .. \
> -DCMAKE_BUILD_TYPE=Release \ 
$ sudo make install

バックスラッシュの後は改行してください.あと,バックスラッシュの前に半角スペースも必要です. 保存場所とかデフォルトでいいなら,以上でよいかと.詳しいところはよく分かりません.でも,以上でjumanppコマンドが使えるようになっているはずです.jumanpp -vとコマンド入力すると,Juman++ Version: 2.0.0-rc2が表示されます.これでバージョン2が使えるようになりました.
以上のコマンド前に行ったファルダ・ファイルのコピーを行わないと,cmakeの時点で上手くいかず,sudo make installができません.仮にcmakeができても,sudo make installでエラーが出ます.モデルがないよ~みたいなエラーだと思いますね.

追記:2020/05/24現在 最新版インストール:WSLでもOK

最新バージョンが去年出ていたようです. これならばWSLでも使えましたし,別のフォルダもダウンロードしファイルをコピーするということは必要ありません. 以下をダウンロードし,サイトに書いてあるコマンドをただコピペして実行していけばjumanppが使えるようになります. github.com

$ wget https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc3/jumanpp-2.0.0-rc3.tar.xz
$ unar jumanpp-2.0.0-rc3.tar.xz
$ cd jumanpp-2.0.0-rc3
$ mkdir bld 
$ cd bld
$ cmake .. \
> -DCMAKE_BUILD_TYPE=Release \ 
$ sudo make install

おまけ

github.com pip install ishiでインストールできます.

JUMAN++だけあれば使えると思い,インストールして例を実行してみましたが, 応答がないですね... KNPも必要なのか?

JUMAN

順番が逆転してますが,JUMAN++と同じようにコマンドを打っていくだけです.

$ cd
$ wget http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/juman/juman-7.01.tar.bz2
$ unar -o src/ juman-7.01.tar.bz2
$ cd src/juman-7.01
$ ./configure
$ sudo make
$ sudo make install

試しにjumanと打ってみましょう.そのときに,

juman: error while loading shared libraries: libjuman.so.4: cannot open shared object file: No such file or directory

と表示されたら,sudo ldconfigを端末に打ちましょう.

Chasen

$ cd
$ wget https://ja.osdn.net/projects/chasen-legacy/downloads/56305/chasen-2.4.5.tar.gz
$ unar -o src/chasen/ chasen-2.4.5.tar.gz
$ cd src/chasen/chasen-2.4.5
$ ./configure
$ sudo make
$ sudo make install

chasenと端末に入力したときに,

chasen: error while loading shared libraries: libchasen.so.2: cannot open shared object file: No such file or directory

と表示されたら,sudo ldconfigを端末に打ちましょう.その後,chasenと打つと,

chasen: can't open chasenrc or /usr/local/etc/chasenrc

と表示されるので,辞書をダウンロードします.以下のコマンドを打っていってください.
以下のコマンドは ChaSenをUTF-8用にインストール - Qiita ほぼそのままです.この通りやると,UTF-8化もできます.UTF-8化しないと,Ubuntu環境下では 文字化けしてしまうので行う必要があります.
また,UTF-8化する際に使用するツールのインストールは以下を参照しました.
ubuntu に nkf をインストール - maruchan_shiro123’s blog

$ cd
$ sudo apt-get install nkf
$ wget https://ja.osdn.net/projects/ipadic/downloads/24435/ipadic-2.7.0.tar.gz
$ unar -o src/chasen/ ipadic-2.7.0.tar.gz
$ cd src/chasen/ipadic-2.7.0
$ find -name '*.dic' | xargs nkf --overwrite -w
$ find -name '*.cha' | xargs nkf --overwrite -w
$ `chasen-config --mkchadic`/makemat -i w
$ `chasen-config --mkchadic`/makeda -i w chadic *.dic
$ ./configure
$ sudo make
$ sudo make install
$ sudo nkf -w --overwrite /usr/local/etc/chasenrc

これでインストールが完了したかと思います. chasen -iwと端末に打つと起動します.chasenだけだと

chasen: /usr/local/lib/chasen/dic/ipadic/cforms.cha:9-21: no basic form

とエラーっぽいのが出て,動いてくれません.UTF-8化した影響なのでしょうか?

`pip`で入れる形態素解析ツール:Windowsなどでも同じ

Python環境ならばどのOSでも同じです. 他のはLinuxでなければなりませんが,以下のツールに関しては特にOS依存しないということです.

Janome

ピュアPython形態素解析モジュールで,最も簡単に,そして,OSや環境等によってインストールに苦労することがないと思います.以下のようにpipでインストールしてしまうだけです.簡単でしょ?

$ pip install janome

StanfordNLP

Python用の自然言語処理ライブラリ”StanfordNLP”を試す によると,有名なスタンフォード大学自然言語処理の研究室が作成したツールのPython版とのことで,以下入力してください.

$ pip install stanfordnlp
$ python
>>>import stanfordnlp
>>>stanfordnlp.download('ja')

実行すると,

Using the default treebank "ja_gsd" for language "ja".
Would you like to download the models for: ja_gsd now? (Y/n)
y

と表示されるので,Yかyを入力してEnterキーを押してください.そうすると,今度は

Default download directory: /home/user/stanfordnlp_resources
Hit enter to continue or type an alternate directory.

と表示されるので,Enterキーを押してください.これでダウンロードが自動的に始まります. Memory Errorを起こす場合があるので,インストールの際にはPCのメインメモリをあまり消費しないようにしましょう.
stanfordnlp.download()は日本語モデルをローカルにダウンロードする作業らしく一度この作業をやっておくと,二度以降はやらなくていいです. 環境によって,このダウンロードがかなり時間がかかると思います.容量が相当あるみたいですね…

`pip install stanfordnlp`でエラーが出る場合

2020/05/24現在,単純にpipでインストールしようとすると,

Could not find a version that satisfies the requirement torch>=1.0.0 No matching distribution found for torch>=1.0.0 (from stanfordnlp)

といったエラーが出てインストールできませんでした... しかし,同じ症状の方がいたようで,解決策がありました! stackoverflow.com 以上サイトより,pip install torch===1.4.0 torchvision===0.5.0 -f https://download.pytorch.org/whl/torch_stable.htmlを実行後, 再度pip install stanfordnlpでOKです.

nagisa

github.com nagisa: RNNによる日本語単語分割・品詞タグ付けツール - Qiita janome同様にpip install nagisaでインストール可能な形態素解析ツール.

ただし,Windowsの場合はMicrosoft Visual C++ 14.0が必要で, 事前にインストールされていない場合はセットアップのトコロでエラーが出ます. なので用意を.
参考:【python】ライブラリインストール時に「error: Microsoft Visual C++ 14.0 is required.」エラーが発生

ただ,WSL上のUbuntu上のAnaconda環境ではエラーなしでインストールできました. その際にDyNetというライブラリもインストールされました. このライブラリがRNNを構成する部分っぽいかな.
試しにやってみると,

>>> import nagisa
[dynet] random seed: 1234
[dynet] allocating memory: 32MB
[dynet] memory allocation done.
>>> words = nagisa.tagging("野獣先輩と変態糞土方")
>>> words
<nagisa.tagger.Tagger._Token object at 0x7f48ecfd2310>
>>> print(words)
野獣/名詞 先輩/名詞 と/助詞 変態/名詞 糞土/動詞 方/接尾辞

っという感じです. nagisa.tagging()で返されるオブジェクトは wordspostagsという変数?を持っていて, それを使うと,分割された単語のリストや品詞のリストを得ることができます. 他に変数は持っていません.

品詞分類はMeCabやJumanの辞書よりも少なめっぽい. MeCabの辞書で学習させれば改善できたりするのかな? そもそもどっちのほうがいいのか... ケースバイケースという感じでしょうかね~

RNNという点ではJUMAN++との性能比較が気になりますね~

MeCab

$ cd
$ wget https://doc-0c-74-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/0n9rflseq8n9srt5qkoblpfqn8sg5p7e/1559836800000/13553212398903315502/*/0B4y35FiV1wh7cENtOXlicTFaRUE?e=download/mecab-0.996.tar.gz
$ unar -o src/mecab/ 0B4y35FiV1wh7cENtOXlicTFaRUE?e=download%2Fmecab-0.996.tar.gz
$ cd src/mecab/mecab-0.996
$ ./configure  --enable-utf8-only
$ sudo make
$ sudo make install

reading ./AuxV.csv ... dictionary.cpp(367) [lid >= 0 && rid >= 0 && matrix.is_valid(lid, rid)] invalid ids are found lid=627 rid=10239
make: *** [Makefile:530: sys.dic] エラー 255


ここで,mecabと端末に打つと,

param.cpp(69) [ifs] no such file or directory: /usr/local/lib/mecab/dic/ipadic/dicrc

というエラーっぽいのが出ると思うので,以下のように辞書をダウンロードしていきます.

$ cd
$ wget https://doc-08-74-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/g7vu0juu77i3alnsrf5j9apnc8ekpebk/1559836800000/13553212398903315502/*/0B4y35FiV1wh7MWVlSDBCSXZMTXM?e=download/mecab-ipadic-2.7.0-20070801.tar.gz
$ unar -o src/mecab/ 0B4y35FiV1wh7MWVlSDBCSXZMTXM?e=download%2Fmecab-ipadic-2.7.0-20070801.tar.gz
$ cd src/mecab/mecab-ipadic-2.7.0-20070801
$ find -name '*.csv' | xargs nkf --overwrite -w
$ find -name '*.dic' | xargs nkf --overwrite -w
$ ./configure  --enable-utf8-only
$ sudo make
$ sudo make install

sudo makesudo make installを実行して,

/usr/local/libexec/mecab/mecab-dict-index -d . -o . -f EUC-JP -t euc-jp
/usr/local/libexec/mecab/mecab-dict-index: error while loading shared libraries: libmecab.so.2: cannot open shared object file: No such file or directory
make: *** [Makefile:253: matrix.bin] エラー 127

と表示された場合,sudo ldconfigを実行してください.その後,sudo makesudo make installが実行できるはずです.
一応Juman辞書もインストールしようかなと…

$ cd
$ wget https://doc-0g-74-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/d6hu0unv373eqo163enlne655pnvknkv/1559836800000/13553212398903315502/*/0B4y35FiV1wh7X2pESGlLREpxdXM?e=download/mecab-jumandic-7.0-20130310.tar.gz
$ unar -o src/mecab/ 0B4y35FiV1wh7X2pESGlLREpxdXM?e=download%2Fmecab-jumandic-7.0-20130310.tar.gz
$ cd src/mecab/mecab-jumandic-7.0-20130310
$ find -name '*.csv' | xargs nkf --overwrite -w
$ find -name '*.dic' | xargs nkf --overwrite -w
$ ./configure  --with-charset=utf8
$ sudo make
$ sudo make install

やったら次のようなエラーが出ました.まぁ,使わないと思いますからとりあえず無視してもいいかもしれないです.

lid(lid, rid)] invalid ids are found lid=627 rid=10239
Makefile:530: recipe for target 'matrix.bin' failed
make: *** [matrix.bin] Error 255

`git`でのインストール:辞書も

wgetがうまくいかない場合は,以下のように mecab本サイトより, gitコマンドで(入ってない場合はsudo apt-get install gitでインストール)ダウンロードしてください. 以下のgitコマンドでのやり方は辞書のインストールも合わせて行っています. その際に,sudo makesudo make installがうまくいかないなぁというときは,sudo ldconfigを実行してからsudo makesudo make installを再度実行してください.

また,以下でnfkが認識されるために事前にnfkをインストールしておきましょう.
複数のファイルの文字コードを一括変換する - Marbles Day

$ sudo apt install nkf,git
$ git clone --depth 1 https://github.com/taku910/mecab.git
$ cd mecab/mecab/
$ ./configure  --enable-utf8-only
$ sudo ldconfig
$ sudo make
$ sudo make install
$ cd 
$ cd mecab/mecab-ipadic/
$ find -name '*.csv' | xargs nkf --overwrite -w
$ find -name '*.dic' | xargs nkf --overwrite -w
$ ./configure  --enable-utf8-only
$ sudo make
$ sudo make install
$ cd 
$ cd mecab/mecab-jumandic/
$ find -name '*.csv' | xargs nkf --overwrite -w
$ find -name '*.dic' | xargs nkf --overwrite -w
$ ./configure  --enable-utf8-only
$ sudo ldconfig
$ sudo make
$ sudo make install

辞書のインストールの前にsudo ldconfigを実行しておいてください. 事前に実行しておかないと以下のようなエラーが出て,mecabコマンドが使えません.

/usr/local/libexec/mecab/mecab-dict-index -d . -o . -f EUC-JP -t euc-jp
/usr/local/libexec/mecab/mecab-dict-index: error while loading shared libraries: libmecab.so.2: cannot open shared object file: No such file or directory
make: *** [Makefile:253: matrix.bin] エラー 127
/usr/local/libexec/mecab/mecab-dict-index -f utf-8 -t utf-8
/usr/local/libexec/mecab/mecab-dict-index: error while loading shared libraries: libmecab.so.2: cannot open shared object file: No such file or directory
make: *** [Makefile:530: sys.dic] エラー 127

まぁ,それでもipadicのほうでmake: *** [Makefile:530: sys.dic] エラー 255が出るのですが, mecabは使えるようなので気にしなくていいのかな?

mecab-ipadic-NEologdのインストール

これをやらないと,Pythonモジュールとして使うJapneseTokenizer等で警告やエラーが出ますので,やっておきましょう.
sudo apt install mecab libmecab-dev mecab-ipadic-utf8によるMeCabのインストール法を最初にやるサイトもあるようですが, 上記の方法でMeCabとipadic辞書はすでにインストールされているので,この場合はしなくて良いでしょう.
インストールされてない場合はやってください.確認方法は,sudo apt search mecabmecab・libmecab-dev・mecab-ipadic-utf8を探してください.ちなみに,このコマンドを実行したら,リストにopen-jtalkが有りました.音声合成できるってことですかね?
mecab-ipadic-NEologdのインストール,中々上手く行かなかったのですが, Ubuntu 18.04 LTSのPythonでMeCabを動かす方法 - Qiita の通りにやったらできました.
とはいえ,mecab-ipadic-NEologdのインストールには相当メモリが消費されるようでして,私の環境下ではブラウザ等使ったままではインストールが中断されてしまいました.StanfordNLPと同じですね.高スペックPC環境下なら並行して色々実行してもいいかもしれませんが,確実にインストールしたいということでしたら,端末以外は閉じましょう.
参考サイトと違う点は-aオプションを指定していることです. mecab-ipadic-neologd/README.ja.md at master · neologd/mecab-ipadic-neologd · GitHub によると,指定することで,全部入り状態でインストールできるそうです.しかし,最低メモリ使用量は2GByte弱だそうで,繰り返しになりますが,端末以外はあまり使わないように…
それでは,sudo apt install git make curl xz-utils fileを実行して必要なパッケージを揃えてから,以下をコマンド入力してください.

$ cd
$ cd /tmp
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ cd mecab-ipadic-neologd
$ ./bin/install-mecab-ipadic-neologd -n -a

事前にsudo apt install gitgitコマンドをインストールしておきましょう.すでに入っている場合はいいですが...
実行していると,途中で以下のようにインストールしていいかい?と聞いてくるので,迷わずyesと入力しましょう.

[install-mecab-ipadic-NEologd] : Do you want to install mecab-ipadic-NEologd? Type yes or no.

※追記:./bin/install-mecab-ipadic-neologd -n -a -yで以上の問答を省略できます. yesで特に問題がなければ,こっちのほうが最後まで放置できてラクです.

インストールに成功すると最後に以下のように出力されます.

[install-mecab-ipadic-NEologd] : Install completed.
[install-mecab-ipadic-NEologd] : When you use MeCab, you can set '/usr/local/lib/mecab/dic/mecab-ipadic-neologd' as a value of '-d' option of MeCab.
[install-mecab-ipadic-NEologd] : Usage of mecab-ipadic-NEologd is here.
Usage:
    $ mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd ...

[install-mecab-ipadic-NEologd] : Finish..
[install-mecab-ipadic-NEologd] : Finish..

インストールが完了したならば,

$ mecab -d $(echo `mecab-config --dicdir`"/mecab-ipadic-neologd")

と端末に入力してくだされば, mecab-ipadic-NEologdのMeCabが実行できるはずです.色々苦戦した後ので以下を試さずに入られませんでした…

野獣先輩と変態糞土方
野獣先輩    名詞,固有名詞,一般,*,*,*,野獣先輩,ヤジュウセンパイ,ヤジューセンパイ
と 助詞,格助詞,一般,*,*,*,と,ト,ト
変態  名詞,サ変接続,*,*,*,*,変態,ヘンタイ,ヘンタイ
糞 名詞,一般,*,*,*,*,糞,クソ,クソ
土方  名詞,一般,*,*,*,*,土方,ドカタ,ドカタ
EOS

変態糞土方は認識してないようですが,野獣先輩は認識しているんですね…

Ubuntu 18.04 LTSのPythonでMeCabを動かす方法 - Qiita より,mecab-unidic-NEologdの方の辞書も入れたいと思います.まぁ,やり方は同じですね.ipadicをunidicにするだけです.

※追記:sudo apt install unzipがないとエラーが出ますね... 入ってない場合は入れておきましょう.
※WSLでは最初の設定のままではsleepコマンドが使えないようで,それために以下を実行すると

sleep: 実時間の時計を読み取ることができません: 無効な引数です

とエラーが出ます.この対策は askubuntu.com もとい How to Upgrade Ubuntu 18.04 LTS to 20.04 LTS on WSL (Windows 10) の”Libc6 dependency issue”という項目下のsudo apt full-upgradeまで順次コマンドを実行することで sleepコマンドが使えるようになります. 以下にそのコマンドを載せておきます.

$ wget https://launchpad.net/~rafaeldtinoco/+archive/ubuntu/lp1871129/+files/libc6_2.31-0ubuntu8+lp1871129~1_amd64.deb
$ sudo dpkg --install libc6_2.31-0ubuntu8+lp1871129~1_amd64.deb
$ sudo apt-mark hold libc6
libc6 は保留に設定されました。
$ sudo apt --fix-broken install
$ sudo apt full-upgrade
$ sudo apt-mark unhold libc6
$ sudo apt-get install build-essential

そして,これでようやくunidic版のNeologd辞書を入れることができるようになります.
apt-mark unhold libc6を一応やっておきましょう. 今後コレをやっておかないとエラーが出てしまうことになるので.
【 apt 】コマンド/【 apt-mark 】コマンド――パッケージを一括更新する:Linux基本コマンドTips(141) - @IT

$ cd
$ cd /tmp
$ git clone --depth 1 https://github.com/neologd/mecab-unidic-neologd
$ cd mecab-unidic-neologd
$ ./bin/install-mecab-unidic-neologd -n 

同じく,途中で以下のようにインストールしてよいか聞きてきますので,当然yesを入力してください.

[install-mecab-unidic-neologd] : Do you want to install mecab-unidic-neologd? Type yes or no.

※追記:./bin/install-mecab-unidic-neologd -n -yで以上の問答を省略できます. yesで特に問題がなければ,こっちのほうが最後まで放置できてラクです.

同じく,インストール完了したら以下のように表示されます.

[install-mecab-unidic-neologd] : Install completed.
[install-mecab-unidic-neologd] : When you use MeCab, you can set '/usr/local/lib/mecab/dic/mecab-unidic-neologd' as a value of '-d' option of MeCab.
[install-mecab-unidic-neologd] : Usage of mecab-unidic-neologd is here.
Usage:
    $ mecab -d /usr/local/lib/mecab/dic/mecab-unidic-neologd ...

[install-mecab-unidic-neologd] : Finish..
[install-mecab-unidic-neologd] : Finish..

こちらでも,試しにコマンドで呼び出し,使ってみましょう.

$ mecab -d $(echo `mecab-config --dicdir`"/mecab-unidic-neologd")
野獣先輩と変態糞土方
野獣先輩    ヤジューセンパイ    ヤジュウセンパイ    野獣先輩    名詞-固有名詞-一般      
と ト ト と 助詞-格助詞        
変態  ヘンタイ    ヘンタイ    変態  名詞-固有名詞-一般      
糞 クソ  クソ  糞 名詞-固有名詞-一般      
土方  ヒジカタ    ヒジカタ    土方  名詞-固有名詞-一般      
EOS

相変わらず野獣先輩は認識してますが,さっきと土方の読みが違いますね…この違いは何なんでしょうか?

どちらの辞書も更新方法はインストール時に行った以上のコマンドを順に実行すればよいだけのようです.定期的に更新されるようなので,余裕があるときにやっておくと良いのかもしれませんね.
以上でcd /tmpとやってますが,いらないかもです...

KyTea

色々やったんですが,上手く行かず悩んでいたところ,MeCabでのやり方を参考にして以下のようにやったら上手く行きました. 具体的にはgit使うところを真似したってとこです.後はGitHub - neubig/kytea: The Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation, etc.のりどみを元にコマンド入力したってとこです. KyTea (京都テキスト解析ツールキット)によると,githubのは未リリースのものということで,バージョン番号が書いてありません. まぁ,使えればどっちでもいいんですがね…
実行して,

Command 'autoreconf' not found, but can be installed with:

sudo apt install autoconf

と出たら,素直にsudo apt install autoconfをしましょう.

$ cd
$ cd src
$ git clone --depth 1 https://github.com/neubig/kytea
$ cd kytea
$ autoreconf -i

ここで

aclocal: warning: couldn't open directory 'm4': No such file or directory
configure.ac:28: error: possibly undefined macro: AC_PROG_LIBTOOL
      If this token and others are legitimate, please use m4_pattern_allow.
      See the Autoconf documentation.
autoreconf: /usr/bin/autoconf failed with exit status: 1

のように表示されたら, KyTea (京都テキスト解析ツールキット) から,最新版のコード(tar.gzファイル)をダウンロード・解凍し,そのフォルダ内の”m4”というフォルダを”src/kytea”のディレクトリ下にコピペしましょう.コピペ後に再度autoreconf -iをやってください. 以下続きです.

$ ./configure
$ sudo make
$ sudo make install
kytea: error while loading shared libraries: libkytea.so.0: cannot open shared object file: No such file or directory

コマンド実行して以上のように出たら,同じくsudo ldconfigをコマンド入力してください.
ちなみに,コマンド実行すると,

$ kytea
野獣先輩と変態糞土方
野獣/名詞/やじゅう 先輩/名詞/せんぱい と/助詞/と 変態/名詞/へんたい 糞土方/名詞/ふんづちかた

EOSが出ないんですね,KyTeaは.野獣先輩を認識してませんんし,糞土方の読みが独特ですね…

ちなみに,kyteaと打って,

kytea: error while loading shared libraries: libkytea.so.0: cannot open shared object file: No such file or directory

と表示されたら,sudo ldconfigを端末に打ちましょう.これでkyteaが使えるはずです.

MeCab,KyTea以外でも”野獣先輩と変態糞土方”を解析してみる

JUMAN

$ juman
野獣先輩と変態糞土方
野獣 やじゅう 野獣 名詞 6 普通名詞 1 * 0 * 0 "代表表記:野獣/やじゅう カテゴリ:動物"
先輩 せんぱい 先輩 名詞 6 普通名詞 1 * 0 * 0 "代表表記:先輩/せんぱい カテゴリ:人 ドメイン:教育・学習;ビジネス"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
@ と と と 助詞 9 接続助詞 3 * 0 * 0 NIL
変態 へんたい 変態 名詞 6 普通名詞 1 * 0 * 0 "代表表記:変態/へんたい カテゴリ:抽象物"
糞 くそ 糞 名詞 6 普通名詞 1 * 0 * 0 "代表表記:糞/くそ カテゴリ:自然物"
@ 糞 ふん 糞 名詞 6 普通名詞 1 * 0 * 0 "代表表記:糞/ふん カテゴリ:自然物"
土方 ひじかた 土方 名詞 6 人名 5 * 0 * 0 "人名:日本:姓:452:0.00062"
EOS

JUMAN++

$ jumanpp
野獣先輩と変態糞土方
野獣 やじゅう 野獣 名詞 6 普通名詞 1 * 0 * 0 "代表表記:野獣/やじゅう カテゴリ:動物"
先輩 せんぱい 先輩 名詞 6 普通名詞 1 * 0 * 0 "代表表記:先輩/せんぱい カテゴリ:人 ドメイン:教育・学習;ビジネス"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
変態 へんたい 変態 名詞 6 普通名詞 1 * 0 * 0 "代表表記:変態/へんたい カテゴリ:抽象物"
糞 くそ 糞 感動詞 12 * 0 * 0 * 0 "代表表記:糞/くそ"
土方 ひじかた 土方 名詞 6 人名 5 * 0 * 0 "人名:日本:姓:452:0.00062"
EOS

Sudachipy

$ sudachipy
野獣先輩と変態糞土方
野獣先輩    名詞,固有名詞,一般,*,*,*    野獣先輩
と 助詞,格助詞,*,*,*,*    と
変態  名詞,普通名詞,サ変可能,*,*,*  変態
糞土  名詞,普通名詞,一般,*,*,*    糞土
方 名詞,普通名詞,一般,*,*,*    方
EOS

Step4:Pythonツールのインストール

$ pip install kytea
$ pip install mecab-python3
$ wget https://codeload.github.com/Kensuke-Mitsuzawa/JapaneseTokenizers/zip/master -O JapaneseTokenizers
$ unar JapaneseTokenizers
$ cd JapaneseTokenizers-master
$ sudo make install
$ sudo make install_neologd
$ python setup.py install       # sudoいるかな?

sudo make install_neologdはうまく行かないかもしれないです.というか,このコマンドは重複してneologd辞書をダウンロードしているような...とりあえず,最後まで実行すれば,JapaneseTokeniserがPythonのモジュールとしてインストールできます. JUMAN++やKNPのPythonラッパーpyknpって言うのがあると思いますが,JapaneseTokenizer内部に使用してるらしく, JapaneseTokenizerをインストールすると自動で入ってるみたいです.使えるかどうかは分かりませんが…なので,pyknpはとりあえず やらないでおきます.

補足・希望

長くなりました.今回は日本語形態素解析器のインストールまでです.参考にさせていただいたサイトには感謝です.
Pythonで実際に使う方法はJupyter Notebookにまとめました.でも,配布法が分かりません…Dropbox使うとできるとか色々書いてあるのですが…まぁ,別の記事で紹介することにしときましょう.構文解析器のインストールについては,やることがあれば,まとめておきますネ.
また,javaのigoをPythonラッパーigo-pythonやkuromojiはインストールしません.javaを入れて使う余裕がないので. KAKASIに関しては,形態素解析器って感じではなさそうですし,これだけ形態素解析器入れれば比較としても十分ではないですか? ちなみに,kuromojiはDownloads · atilika/kuromoji · GitHubKAKASIhttp://kakasi.namazu.org/index.html.jaからダウンロードできます.
後,私はパッケージを直にインストールしちゃってます.本記事のやり方がそうですね.ホントは仮想環境作ってやるのが正解なのかもしれませんが...まぁ,そっちのほうがいい方は各自でやり方を調べてくださいネ.そこまで調べる気力はないです…

各々のPCとかの環境によっては上手くいかないことがあるかと思います.Anacondaの導入までは誰がやってもうまくいくと思いますが,言語処理ツールのインストールは特に上手くいかないと思います. そういう私がそうでした.試行錯誤して試してほしいと思います.

私の希望としては言語処理関連ツールがデフォルトでインストールされているLinux OSを誰か作ってくれないかなぁ~と思うのですが...自分で作るしかないですかねぇ~

他参照サイト等

本文で明示してなかったもの等を挙げときます.書き漏れあったらすみません.