Python janomeの使い方

JanomeはPythonの形態素解析エンジンで、日本語のテキストを形態素ごとに分割して品詞を判定したり分かち書き（単語に分割）したりすることができます。

インストール

$ pip install janome

インポート

from janome.tokenizer import Tokenizer

Tokenizerをインポートする。

Hello World

from janome.tokenizer import Tokenizer
t = Tokenizer()
 
str = "私はリンゴが好きです。"
 
for token in t.tokenize(str):
    print(token)

''' 結果
私      名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
リンゴ  名詞,一般,*,*,*,*,リンゴ,リンゴ,リンゴ
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
好き    名詞,形容動詞語幹,*,*,*,*,好き,スキ,スキ
です    助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。      記号,句点,*,*,*,*,。,。,。

'''

わずか5行のコードでテキスト解析ができてしまいました。凄い！

tokenize()

tokenize()メソッドはjanome.tokenizer.Tokenオブジェクトのジェネレータを返します。

# <class 'generator'>

Tokenオブジェクト

私      名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ

for文のprint(token)で一行ずつ一括出力されていますが、各属性を個別に取得することもできます。

surface	表層形
part_of_speech	品詞
infl_type	活用型
infl_form	活用形
base_form	基本形、見出し語
reading	読み
phonetic	発音

[Ad]