Welcome
自分の興味あるテーマを中心に、図解多めに記事を作成していきたいと思います。
自分の興味あるテーマを中心に、図解多めに記事を作成していきたいと思います。
JanomeはPythonの形態素解析エンジンで、日本語のテキストを形態素ごとに分割して品詞を判定したり分かち書き(単語に分割)したりすることができます。
$ pip install janome
from janome.tokenizer import Tokenizer
Tokenizerをインポートする。
from janome.tokenizer import Tokenizer
t = Tokenizer()
str = "私はリンゴが好きです。"
for token in t.tokenize(str):
print(token)
''' 結果
私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
リンゴ 名詞,一般,*,*,*,*,リンゴ,リンゴ,リンゴ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
好き 名詞,形容動詞語幹,*,*,*,*,好き,スキ,スキ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。 記号,句点,*,*,*,*,。,。,。
'''
わずか5行のコードでテキスト解析ができてしまいました。凄い!
tokenize()メソッドはjanome.tokenizer.Tokenオブジェクトのジェネレータを返します。
# <class 'generator'>
私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ
for文のprint(token)で一行ずつ一括出力されていますが、各属性を個別に取得することもできます。
| surface | 表層形 |
| part_of_speech | 品詞 |
| infl_type | 活用型 |
| infl_form | 活用形 |
| base_form | 基本形、見出し語 |
| reading | 読み |
| phonetic | 発音 |
[Ad]