形態素解析結果の表示の違いまとめ
で用意したMeCabとJUMAN++での形態素解析結果の表示の違いについて,メモ程度にまとめておこうかと思います.
# mecab-ipadic-neologd 野獣先輩 名詞,固有名詞,一般,*,*,*,野獣先輩,ヤジュウセンパイ,ヤジューセンパイ # mecab-unidic-neologd 野獣先輩 ヤジューセンパイ ヤジュウセンパイ 野獣先輩 名詞-固有名詞-一般 # juman++ 野獣先輩 やじゅうせんぱい 野獣先輩 名詞 6 固有名詞 3 * 0 * 0 "代表表記:野獣先輩/やじゅうせんぱい"
という感じです.形態素解析結果形式は辞書の形式と同じなので,それぞれの辞書作成の際にも参考になるかと思います.
また,どの形態素解析器でも該当するものがない項目は*
で示されます.unidicのみ空白で示されます.
では,上記について少し簡単に補足を.
- mecab-ipadic-neologd
最初の表層形と他の間が半角タブで区切られています.それ以降はすべて半角カンマで区切られています.
表層形,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音
- mecab-unidic-neologd
全てが半角タブで区切られています.表示される順番はipadicとは異なっています.
表層形,発音,読み,原形,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形
- juman++
全てが半角スペースで区切られています.
表層形,読み,原形,品詞,品詞ID,品詞細分類,品詞細分類ID,活用型,活用型ID,活用形,活用形ID,意味情報(代表表記)