自然言語処理 形態素解析
記事作成日: 2023-08-20
形態素解析とは
自然言語のテキストデータ(文)から、文法や、単語の品詞等の情報にもとづき、形態素(言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業のことです。
解析例
「私は猫が好きです。」という文章を形態素解析器で形態素解析した例です。
1 私 私 PRON 代名詞 _ 5 dislocated _ SpaceAfter=No|BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|NP_B|Reading=ワタクシ
2 は は ADP 助詞-係助詞 _ 1 case _ SpaceAfter=No|BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|Reading=ハ
3 猫 猫 NOUN 名詞-普通名詞-一般 _ 5 nsubj _ SpaceAfter=No|BunsetuBILabel=B|BunsetuPositionType=SEM_HEAD|NP_B|Reading=ネコ|NE=B-OTHERS|ENE=B-Mammal
4 が が ADP 助詞-格助詞 _ 3 case _ SpaceAfter=No|BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|Reading=ガ
5 好き 好き ADJ 形状詞-一般 _ 0 root _ SpaceAfter=No|BunsetuBILabel=B|BunsetuPositionType=ROOT|Reading=スキ
6 です です AUX 助動詞 _ 5 aux _ SpaceAfter=No|BunsetuBILabel=I|BunsetuPositionType=SYN_HEAD|Inf=助動詞-デス,終止形-一般|Reading=デス
7 。 。 SYM 補助記号-句点 _ 5 dep _ SpaceAfter=No|BunsetuBILabel=I|BunsetuPositionType=CONT|Reading=。
先ほどの文章を細かく分割し、その品詞や文法、読み仮名などを判別して出力してくれます。
形態素解析器(ツール・ライブラリ)
日本語で使える形態素解析ツール・ライブラリ
- ChaSen(茶筌)
- JUMAN
- KAKASI
- MeCab(和布蕪)
- Janome (Python)
- 日本語形態素解析(V2) - Yahoo!デベロッパーネットワーク
- 形態素解析API |ソフト・アプリ開発のAPIなら【gooラボ】
形態素解析器用辞書
- ipadic : ChaSen用辞書
- NAIST-jdic : ChaSen,MeCab用の辞書
- UniDic : MeCab用の辞書