自然言語処理 形態素解析

記事作成日: 2023-08-20

形態素解析とは

自然言語のテキストデータ(文)から、文法や、単語の品詞等の情報にもとづき、形態素(言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業のことです。

解析例

「私は猫が好きです。」という文章を形態素解析器で形態素解析した例です。

1       私      私      PRON    代名詞  _       5       dislocated      _       SpaceAfter=No|BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|NP_B|Reading=ワタクシ
2       は      は      ADP     助詞-係助詞     _       1       case    _       SpaceAfter=No|BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|Reading=ハ
3       猫      猫      NOUN    名詞-普通名詞-一般      _       5       nsubj   _     SpaceAfter=No|BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|NP_B|Reading=ネコ|NE=B-OTHERS|ENE=B-Mammal
4       が      が      ADP     助詞-格助詞     _       3       case    _       SpaceAfter=No|BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|Reading=ガ
5       好き    好き    ADJ     形状詞-一般     _       0       root    _       SpaceAfter=No|BunsetuBILabel=B|BunsetuPositionType=ROOT|Reading=スキ
6       です    です    AUX     助動詞  _       5       aux     _       SpaceAfter=No|BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|Inf=助動詞-デス,終止形-一般|Reading=デス
7       。       。      SYM     補助記号-句点   _       5       dep     _       SpaceAfter=No|BunsetuBILabel=I|BunsetuPositionType=CONT|Reading=。

先ほどの文章を細かく分割し、その品詞や文法、読み仮名などを判別して出力してくれます。

形態素解析器(ツール・ライブラリ)

日本語で使える形態素解析ツール・ライブラリ

形態素解析器用辞書

  • ipadic : ChaSen用辞書
  • NAIST-jdic : ChaSen,MeCab用の辞書
  • UniDic : MeCab用の辞書