※このページではアフィリエイト広告を利用しています

【Python応用】Janomeを用いた形態素解析-概要-

Python

ここではJanomeを用いた形態素解析について解説しています。

スポンサーリンク
スポンサーリンク

Janomeとは

JanomeはPython自身で記述されている形態素解析エンジンです。

特徴としてはMecabと比べると実行速度が10倍ほど遅いです。しかし、MecabのようにPython用ライブラリなどをインストールすることなく、pipコマンド一つで環境構築でるので、手軽さも特徴の一つです。

Janomeのインストール

$ pip3 install janome

JanomeはMecabと比べると上記をインストールするだけで環境が整います。

Janomeを用いた使用例

from janome.tokenizer import Tokenizer
#1---オブジェクト作成
t = Tokenizer()
#2---メソッドに文字列を渡す
for token in t.tokenize('吾輩は猫である。'):
    print(token)

プログラムは上記になります。

それでは解説していきます。

#1---オブジェクト作成
t = Tokenizer()

1の部分では、Tokenizer オブジェクトを作っています。

#2---メソッドに文字列を渡す
for token in t.tokenize('吾輩は猫である。'):
    print(token)

2の部分では、tokenize() メソッドに解析したい文字列を渡して出力しています。

結果

吾輩	名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
猫	名詞,一般,*,*,*,*,猫,ネコ,ネコ
で	助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある	助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
。	記号,句点,*,*,*,*,。,。,。

上記が結果になります。

Mecabと比べると若干遅く感じましたが、結果は一緒でした。Mecabの結果はこちらです。

その他、Janomeを用いた使用例

項目内容
Janomeを用いた出現頻度の解析太宰治の「I can speak」の単語頻出を解析してみました。ここでは、Janomeを用いて出現頻度の解析方法について解説しています。
タイトルとURLをコピーしました