MeCab導入、Word2Vec1で日本語Wikipediaデータの学習

という流れです。

１．MeCab導入

このへんのURLを参考に

２．mecab-ipadic-NEologdの追加

Gitのページに詳細が紹介されています

３．PythonからMecabを使えるようにする

pipでmecab-python3をインストール

pythonを起動してimport MeCabすると

GLIBCXX_3.4.20が見つからないと怒られた。

この辺のURLを参考にしてcondaでlibgccをインストールすると解決した。

m = Mecab.Tagger("")

m.parse("これはテスト")

とすると、utf-8のコーデックがどうのこうのと言われたので

apt-get install mecab-ipadic-utf8した。

（たしか先にインストールしたはずなんだけど、これでうまくいったのでOK）

MeCabの-dオプションがめんどくさい。

MeCab.Tagger("-d /usr/lib/mecab/dic/mecab-ipadic-neologd"）

ので、/etc/mecabrcのdicdirを書き換えた。

４．word2vecで日本語Wikipediaのデータを学習

参考URLはここ

冒頭でmecabとnaist辞書はインストールしなかった。

2017.2.28時点で最新のruby-2.4.0をインストールした。

思いついたときだけ書く日記