MeCab導入、Word2Vec1で日本語Wikipediaデータの学習

  1. MeCab導入
  2. mecab-ipadic-NEologdの追加
  3. PythonからMecabを使えるようにする
  4. word2vecで日本語Wikipediaのデータを学習

という流れです。

1.MeCab導入
このへんのURLを参考に

2.mecab-ipadic-NEologdの追加
Gitのページに詳細が紹介されています

3.PythonからMecabを使えるようにする
pipでmecab-python3をインストール

pythonを起動してimport MeCabすると
GLIBCXX_3.4.20が見つからないと怒られた。
この辺のURLを参考にしてcondaでlibgccをインストールすると解決した。

m = Mecab.Tagger("")
m.parse("これはテスト")
とすると、utf-8のコーデックがどうのこうのと言われたので
apt-get install mecab-ipadic-utf8した。
(たしか先にインストールしたはずなんだけど、これでうまくいったのでOK)

MeCabの-dオプションがめんどくさい。
MeCab.Tagger("-d /usr/lib/mecab/dic/mecab-ipadic-neologd")
ので、/etc/mecabrcのdicdirを書き換えた。

4.word2vecで日本語Wikipediaのデータを学習
参考URLはここ

冒頭でmecabとnaist辞書はインストールしなかった。
2017.2.28時点で最新のruby-2.4.0をインストールした。

コメント

このブログの人気の投稿

TightVNCでリモートデスクトップ

firefoxからmidoriちゃんにのりかえ

2016.09.30 Psychopy 日本語改行できない問題