MeCab導入、Word2Vec1で日本語Wikipediaデータの学習
- MeCab導入
- mecab-ipadic-NEologdの追加
- PythonからMecabを使えるようにする
- word2vecで日本語Wikipediaのデータを学習
という流れです。
1.MeCab導入
このへんのURLを参考に
2.mecab-ipadic-NEologdの追加
Gitのページに詳細が紹介されています
3.PythonからMecabを使えるようにする
pipでmecab-python3をインストール
pythonを起動してimport MeCabすると
GLIBCXX_3.4.20が見つからないと怒られた。
この辺のURLを参考にしてcondaでlibgccをインストールすると解決した。
m = Mecab.Tagger("")
m.parse("これはテスト")
とすると、utf-8のコーデックがどうのこうのと言われたので
apt-get install mecab-ipadic-utf8した。
(たしか先にインストールしたはずなんだけど、これでうまくいったのでOK)
MeCabの-dオプションがめんどくさい。
MeCab.Tagger("-d /usr/lib/mecab/dic/mecab-ipadic-neologd")
ので、/etc/mecabrcのdicdirを書き換えた。
4.word2vecで日本語Wikipediaのデータを学習
参考URLはここ
冒頭でmecabとnaist辞書はインストールしなかった。
2017.2.28時点で最新のruby-2.4.0をインストールした。
コメント
コメントを投稿