芋の独り言

当ブログへのアクセスは当ブログのプライバシーポリシーに同意したものとみなします.

形態素解析結果の表示の違いまとめ

kusoimox.hatenablog.jp

で用意したMeCabとJUMAN++での形態素解析結果の表示の違いについて,メモ程度にまとめておこうかと思います.

# mecab-ipadic-neologd
野獣先輩    名詞,固有名詞,一般,*,*,*,野獣先輩,ヤジュウセンパイ,ヤジューセンパイ
# mecab-unidic-neologd
野獣先輩    ヤジューセンパイ    ヤジュウセンパイ    野獣先輩    名詞-固有名詞-一般
# juman++
野獣先輩 やじゅうせんぱい 野獣先輩 名詞 6 固有名詞 3 * 0 * 0 "代表表記:野獣先輩/やじゅうせんぱい"

という感じです.形態素解析結果形式は辞書の形式と同じなので,それぞれの辞書作成の際にも参考になるかと思います.
また,どの形態素解析器でも該当するものがない項目は*で示されます.unidicのみ空白で示されます.

では,上記について少し簡単に補足を.

  • mecab-ipadic-neologd
    最初の表層形と他の間が半角タブで区切られています.それ以降はすべて半角カンマで区切られています.
表層形,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音
  • mecab-unidic-neologd
    全てが半角タブで区切られています.表示される順番はipadicとは異なっています.
表層形,発音,読み,原形,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形
  • juman++
    全てが半角スペースで区切られています.
表層形,読み,原形,品詞,品詞ID,品詞細分類,品詞細分類ID,活用型,活用型ID,活用形,活用形ID,意味情報(代表表記)

参考