Welcome

カキノタblog

自分の興味あるテーマを中心に、図解多めに記事を作成していきたいと思います。

Python janomeの使い方

JanomeはPythonの形態素解析エンジンで、日本語のテキストを形態素ごとに分割して品詞を判定したり分かち書き(単語に分割)したりすることができます。

インストール

$ pip install janome

インポート

from janome.tokenizer import Tokenizer

Tokenizerをインポートする。

Hello World

from janome.tokenizer import Tokenizer
t = Tokenizer()
 
str = "私はリンゴが好きです。"
 
for token in t.tokenize(str):
    print(token)

''' 結果
私      名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
リンゴ  名詞,一般,*,*,*,*,リンゴ,リンゴ,リンゴ
が      助詞,格助詞,一般,*,*,*,が,ガ,ガ
好き    名詞,形容動詞語幹,*,*,*,*,好き,スキ,スキ
です    助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。      記号,句点,*,*,*,*,。,。,。

'''

わずか5行のコードでテキスト解析ができてしまいました。凄い!

tokenize()

tokenize()メソッドはjanome.tokenizer.Tokenオブジェクトのジェネレータを返します。

# <class 'generator'>

Tokenオブジェクト

私      名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ

for文のprint(token)で一行ずつ一括出力されていますが、各属性を個別に取得することもできます。

surface 表層形
part_of_speech 品詞
infl_type 活用型
infl_form 活用形
base_form 基本形、見出し語
reading 読み
phonetic 発音

[Ad]