終末 A.I.

データいじりや機械学習するエンジニアのブログ

ベイズ統計を理解する(1) 〜 最尤推定、MAP推定、ベイズ推定 〜

先日、下記のような記事が上がっていまして、小説生成を目論む私としては気になって論文にも目を通してみたのですが、どうやら生成モデルを利用しているらしいということしか分からず、理解が足踏みしてしまっています。

wired.jp

最近、Deep Learning 周りでは生成モデルが流行ってるようで、DCGANを使ってイラストを自動で生成するアルゴリズムが年末にバズっていたように、この周辺はじわじわホットトピックになってきている感があります。

qiita.com

しかし、生成モデルを理解するには Deep Learning だけでなくベイズ統計周りの知識が必須になります。利用するだけならどなたかが実装するのを待てばよいのですが、新しくでた論文の内容を実装してみようと思うと、ベイズの基礎くらいは必要な印象を受けました。

そこで、今回からしばらくはComputer Vision Modelsのテキストを使用して、ベイズ統計について学んでいきたいと思います。また、こちらのテキストは日本語での解説動画が上がっていますので、こちらもご参考ください。

www.udemy.com

前置きが長くなりましたが、今回はモデルのフィッテングに使用される、最尤推定、MAP推定推定、ベイズ推定について書いていきたいと思います。

以下では、{\theta}はモデルのパラメーター、{\hat{\theta}}はパラメーターの推定値、{x_{1...I}}は観測値(省略して単に{x}と記述することもあります)、{x^*}はモデルにフィットするか評価する値とします。

最尤推定

最尤推定は、下記のように観測値の尤度が最大化するようなパラメーターを推定します。

{\hat{\theta} = argmax(Pr(x_{1...I}| \theta))}

新しいデータがモデルにどれだけ適合するかは、{Pr(x^*|\hat{\theta})} を計算すれば良いので簡単に求めることができます。

例として観測変数が正規分布から生成されるようなモデルを考えます。このとき、推定するパラメーター{\hat{\theta}} {\hat{\mu}} {\hat{\sigma}^2}になります。式展開の詳細は、上記で紹介してある本や資料を見ていただくとして、{Pr(x|\theta)}正規分布の場合、最尤推定を行うと{\hat{\theta}}は解析的に簡単に求める事ができ、下記のようになります。

 {\hat{\mu} = \frac{\sum_{i=0}^I x_i} {I}}

 {\hat{\sigma}^2 = \sum_{i=0}^I \frac{{(x_i - \hat{\mu})}^2} {I}}

見ていただいてわかるように、それぞれ観測点の平均と分散になります。以上が最尤推定による学習の概要となります。

MAP推定

MAP推定は、事後確率を最大にするパラメーターを推定する方法です。式は下記のようになります。

 { \displaystyle
\hat{\theta} = argmax(Pr(\theta|x)) \
= argmax(Pr(x | \theta) Pr(\theta))
}

ベイズの定理に従い素直に展開すると{Pr(x)}が分母につきますが、この値は{\theta}によらず一定であり、式を最大にする{\theta}を求める際には不要なので除いています。最尤推定法と比較してみると、事前確率が推定に影響を与えるかどうかの違いがあります。

新しいデータがモデルにどれだけ適合するかは、{Pr(x^*|\hat{\theta})} を計算することで求めることができます。これは最尤推定の時と同じですね。

同じく、例として観測変数が正規分布から生成されるようなモデルを考えます。この時、事前分布である{Pr(\theta)}正規分布の共役事前分布である逆ガンマ分布であると仮定します。式展開の詳細は省略しますが、この場合も解析的に簡単に{Pr(x|\theta)}を求めることができ、下記のようになります。

 {\hat{\mu} = \frac{\sum_{i=0}^I x_i + \gamma \delta} {I + \gamma}}

 {\hat{\sigma}^2 = \sum_{i=0}^I \frac{{(x_i - \hat{\mu})}^2 + 2 \beta + \gamma{(\delta - \hat{\mu})}^2} {I + 3 + 2 \alpha}}

 {\alpha , \beta , \gamma , \delta}は逆ガンマ分布のハイパーパラメーターです。 {\hat{\mu}}に注目していただくと分かりやすいように、事前分布の情報の分、最尤推定の時と比べてハイパーパラメーターで推定値が補正されています。以上がMAP推定による学習の概要となります。

ベイズ推定

ベイズ推定は、観測値にが当てられた時にパラメーターの事後確率分布を推定する方法です。先程までの最尤推定やMAP推定はベイズ推定がパラメーターの分布を推定するのに対して、最大になるパラメーター一点のみを推定するので点推定と呼ばれます。

ベイズ推定の式は下記のようになります。

 { \displaystyle
Pr(\theta|x) = \frac{\prod Pr(x_i | \theta) Pr(\theta)} {Pr(x)}
}

ここで求めたパラメーターの事後分布を用いて新しい値の評価を行いますが、この評価の仕方も点推定の場合とはかなり異なります。ベイズ推定では、ある値が観測されるようなモデルに新しく観測された値がフィットするかを評価します。式は下記のようになります。

[tex: { \displaystyle Pr(x^ | x) = {\int Pr(x^ | \theta)Pr(\theta | x) d \theta} }]

例として観測変数が正規分布から生成されるようなモデルを考えます。{Pr(\theta)}はMAP推定の時と同じく逆ガンマ分布であると仮定します。 この時、推定されるパラメーターの事後分布は解析的に求めることができ下記のようになります。

 { \displaystyle
Pr(\theta|x) = NormInvGam(\tilde{\alpha}, \tilde{\beta}, \tilde{\gamma}, \tilde{\delta})
}

また、{Pr(x^*|x)} も解析的に求める事ができ、下記のようになります。

{ \displaystyle
Pr(x^*|x) = {\frac{1} {\sqrt{2 \pi}} {\frac{\sqrt{\tilde{\gamma}} \tilde{\beta}^{\tilde{\alpha}}} {\sqrt{\breve{\gamma}} \breve{\beta}^{\breve{\alpha}}}}} {\frac{\Gamma(\breve{\alpha})} {\Gamma(\tilde{\alpha})}}
}

{ \tilde{\alpha}, \tilde{\beta}, \tilde{\gamma}, \tilde{\delta}, \breve{\alpha}, \breve{\beta}, \breve{\gamma}} {\alpha , \beta , \gamma , \delta}と観測値{x}から計算されるパラメーターです。このようにだいぶ複雑になりますが、解析的に求める事ができるため素早く簡単に計算できます。以上がベイズ推定による学習の概要となります。

学習結果の比較

平均が0、標準偏差が2の正規分布からサンプリングしたデータを使用して、上記の各モデリング手法による学習結果を比較してみました。ちなみにベイズ推定は式を入力するのが面倒くさかったのと、ベイズ推定ライブラリの使用方法がよくわからなかったので結果は載せていません。 赤が元の分布、青が最尤推定で学習した分布、緑がMAP推定で学習した分布です。MAP推定では、中心が0、標準偏差が2~4くらいのパラメーターが最も表れやすい事前分布を与えています。

I=10

f:id:KSKSKSKS2:20160522210026p:plain

I=100

f:id:KSKSKSKS2:20160522210256p:plain

観測数が10の時は、学習が不完全で中心付近の大きく分布がよってしまっています。MAP推定は最尤推定とくらべ、事前分布の影響を見て取ることができます。一方、単純な分布なこともあり観測数が100もあれば、いずれも十分に元の分布を再現できるに至っています。

学習に使用したコードは下記のとおりです。といっても、上記の式に合わせてコード書いてあるだけなんですけどね。

word2vec の結果を利用して RNN で文章を生成してみる(2)

word2vec の出力結果を元に文章を作ってみるコーナーの第二弾です。 今回はエンコーダーデコーダーモデルを使用して word2vec の出力から文章を生成できないかを試してみました。 使用したモデルは以前の記事で紹介した Skip-Thought Vectors です。

ksksksks2.hatenadiary.jp

Skip-Thought Vectors を簡単に説明すると、入力文をエンコーダーエンコードしその文の情報をコンテキスト情報として指定サイズのベクトルに圧縮、そしてこのコンテキスト情報を元に、デコーダーを使用して入力文の前後の文を出力しようというモデルとなります。 この Skip-Thought Vectors の入力および出力は、単語のIDを各ユニットに割り当てた形となります。今回は、この入力と出力を word2vec にして日本語で動かしてみました。

chainer を用いて、前回も利用した mecab分かち書きにした wikipedia の記事文章とその文章から生成した word2vec を利用して処理を行いました。ロス関数は本家のソフトマックスのままでは利用できないので、正解単語とデコーダーによって出力された単語との二乗誤差を用いました。対象となった単語は40万語ほどで、それ以外は未知語としてすべて同じベクトルを割り当てるようにしています。

利用したコードは記事の最下部に記載しています。一部 util.py に逃がしたコードは記載していませんが、だいたい何をやっているかは分かっていただけるかと思います。chainer にはコンディショナルな GRU を扱う方法がないので、StatefulGRU のコードを利用して ConditionalStatefulGRU を自作、それをさらに自作の Skip-Thoughts モデルで使用しています。Skip-Thoghts モデルでは、まず入力単語をエンコーダー部でエンコードし、その出力をデコーダーで使用して前後の文が出力されるように学習しています。

だいたい6万文ほど学習させた段階で誤差が小さくならなくなってきたので、今回はそこで処理を停止させました。以下はその時のモデルを利用して、文章を入力した際に、次の文章として生成されたものです。文章の生成は、「。」が現れるか、30単語生成した時点で停止するようにしています。ちなみに入力文章は、学習したデータの中にも含まれている、wikipedia のアンパサンドに関する説明の一節です。

  • 入力文:アンパサンド(&)とは「…と…」を意味する記号である。
  • 出力単語列:'000', '受け取る', '回数', '推定', '平均', '000', '賃金', '月末', '政令', '条', '詐欺', '弁護士', '監査', '地裁', '年金', '協定', '加盟', '審議', '令', '奉仕', '自治体', '在日', '捕鯨', '定める', '通知', '土木', '請求', '職員', '実務', '事務'

  • 入力文:その使用は1世紀に遡ることができ(1)、5世紀中葉(2,3)から現代(4-6)に至るまでの変遷がわかる。

  • 出力単語列:'フラッシュ', 'メニュー', 'フォーマット', '送信', 'ケーブル', '媒体', 'ホスト', '動画', 'MHz', '閲覧', 'エージェント', '互換', '通信', '準拠', 'タイミング', 'サポート', 'OS', 'メニュー', 'SD', 'ボード', 'ファイル', '周波数', 'ゲート', '本体', 'マイクロソフト', 'シフト', 'コンテンツ', 'オブジェクト', 'Microsoft', 'ロード', 'フォーマット', 'ドメイン', '選択肢', 'オブジェクト', 'ソニー', 'ウェア', 'マイクロソフト', 'データ', '素子', 'オート', 'アプリ', 'コア', '動画', 'スケジュール', 'グループ', '夏季', 'メイン', '祭り', 'ライフ', 'ロケ', 'ショップ'

ご覧いただいた通り、全然うまく学習できていません。入力文の話の流れを完全に無視しているだけでなく、出力がただの名詞の羅列でありそもそも文章として成り立たせるための学習が行われたように全く見えません。一方、出力する単語列はその前の単語に大きく影響されるところがあり、連想ゲームのように関連する単語が生成されるようになってしまっています。

「てにおは」が全くなく、その前の単語に近い単語が生成されるというのは、学習動作から考えて一応想定していた結果ではあります。ある文章には、それ以前に入力されてきた単語に関連する単語(word2vec 的に距離が近い単語)が現れる確率が、それ以外の単語が現れる確率より格段に高いので、入力された単語と近い単語を出力するような学習となったのでしょう。

入力文のコンテキストを完全に無視するという挙動はなんとも言えません。同じ文の組み合わせを一回ずつしか学習させていないので十分に学習しきれていない可能性もありますし、自前で実装した ConditionalStatefulGRU がうまく機能していない可能性もあります。一応 ConditionalStatefulGRU のパラメーター更新は行われているようですので、そんなことはないと思いたいものですが。

とりま、前者の挙動をなんとかしないと、文章っぽいものを生成することすらできません。この辺りをどう解決するかが今後の鍵になりそうです。

Deep Learning で使われてる attention ってやつを調べてみた

先週 Skip-Thought Vectors について調べてみたわけですが、その中でよく何を言っているのかよく分かっていなかった、 attention mechanism について調べてみました。 調べるにあたって、最近のDeep Learning (NLP) 界隈におけるAttention事情 が大変参考になりました。ありがとうございます。

まず attention 、特にエンコーダーデコーダーモデルにおける attention について簡単に説明すると、入力情報全体ではなく、その一部のみを特にフォーカスしたベクトルをデコーダーで使用する仕組みのことです。そのことにより、デコードの特定のタイミングにだけ必要になる入力情報を精度よく出力に反映させることができるようになります。

これだけでは何のことかちょっと分かりにくいので、Neural machine translation by jointly learning to align and translate を例に説明していきたいと思います。この論文は、Neural Machine Translation という Neural Network を利用して翻訳タスクを行う分野の論文ですが、最近その分野でも著しい成果を出しているエンコーダ・デコーダーモデルでの翻訳処理に、attention を導入することによって、翻訳前の文章が長文であっても精度よく翻訳処理が行えるようにしたという成果を紹介しています。

通常のエンコーダ・デコーダモデルでは、エンコーダの出力は一つしかデコーダでは使用されません。それをどのように用いるかは手法によりけりですが、この方法では、入力文の情報を特定のサイズのベクトルにまとめる必要があり、長文になればなるほど元の情報の圧縮精度が悪くなってしまいます。

一方、attention を用いたモデルでは、エンコーダーの隠れ層のうち、特定の入力単語やその周辺の単語にフォーカスしたベクトルをデコーダで用います。これにより、デコーダのある時点で必要な情報にフォーカスして使用することができ、入力文の長さに関係なくデコードを効率よく行うことができます。attention の利用方法も手法によりけりですが、すべてのベクトルを重み付けして利用する global attention や特定のベクトルのみを用いる local attention と呼ばれる方法に分けている提案もあります。

上記の論文では、長文での翻訳精度が上昇したでけでなく、alignment と呼ばれる機械翻訳分野で、翻訳前の文と翻訳語の文の対照関係を分析する処理でも有用な結果を生成することができているようです。

個人的には、エンコーダで生成するベクトルに十分な長さがあれば特に問題なく似たような状況を学習できそうな気もするのですが、なかなかそれではうまくいったりしないものなんでしょうか。

参考文献

Skip-Thought Vectors を解説してみる

本日は、インスピレーションと予算の枯渇のため、実験ができていなかったので、論文の解説をいたします。まあ、解説とか偉そうなことを言っていますが、主に自分用のメモみたいなものなのですが。

紹介する論文は、「Skip-Thought Vectors」です。この手法は、文(センテンス)をベクトル化する手法の一つで、様々なNLPタスクで好成績を挙げたことで知られている去年の6月にarxivに公開された論文です。ちなみに著者の方が Theano 上で動くソースコードを公開しているので、実際に動かしてみることも可能です。(ただし、学習に時間がかかる) github.com

さて、この Skip-Thought Vectorsのですが、最大の特徴は教師なし学習でかなり質の高い文ベクトルを生成できる点にあります。実際に使用する入力データは、文章のコーパス(論文中ではブックコーパス)だけでできてしまいます。計算資源さえあればOKという、日曜大工な人間には最高に相性の良い手法となっています。

その構造ですが、下記の図が一番わかりやすいでしょう。入力しているのは、文書中のi番目の文。出力は、同じくi-1番目とi+1番目の文である入力文書の前後の文です。正確に言うと、入力文を元に文ベクトルを生成するエンコーダと、文ベクトルを元に前の文と次の文を生成する2つのデコーダから成っているモデルです。

論文中では、エンコーダに用いたモデルはGRU、デコーダに用いたモデルは conditional GRUを使用していますが、エンコーダ・デコーダとして使用できればモデル上なんでもいいことになります。

f:id:KSKSKSKS2:20160424184856p:plain

では実際にどのように学習していくのか。手順は下記になります。

  1. エンコーダに入力となる文を最後まで入力する(入力に用いる単語ベクトルはあらかじめ用意しておく。ID形式とかなんでもOK)。
  2. エンコーダの学習により獲得した隠れ層の値を入力文のベクトルとして使用する。
  3. デコーダに入力文の引数と、生成する文の一つ前の単語を入力する(最初の単語の場合は、eos 記号を入力とする)。
  4. デコーダのこの時の隠れ層の値と、出力される単語に対応する語彙ベクトルの内積を求め、この値をその時点での該当単語の出力される確率として扱う。
  5. 出力文の最後まで 3−4 の操作を繰り返し、単語生成確率の和を求め、この値が最大化されるようにエンコーダとデコーダのパラメータを学習する

デコーダは、前の文を生成するものと次の文を生成するものの2つがあり、基本的にそれぞれで使用するパラメータは違うものを使用しますが、語彙ベクトルだけは共通のものを使用します。というわけで、以上で学習は完了です。簡単ですね!

注意点としては、学習時に出現していない単語がテストセットに含まれている時の扱いです。論文中では、テストセットと学習セットに含まれる単語をword2vec等でベクトル化した後、学習セットに含まれる単語のベクトルを word2vec ベクトルから学習時に使用したベクトルに射影する線形変換を学習しすることにより、未知語の表現を獲得しエンコーダでも使用できるようにしています。 デコード時に出力される語彙に関する言及は特にないので、増やすことについての考慮は特にされていないと思われます。難しそうですものね。

また、学習時に使用する文ですが、 attention mechanism (参照:Neural machine translation by jointly learning to align and translate.) を使用して、適切な単語のみを考慮して学習できるように一部改変しながらもちているようです。

というわけで、後はエンコードしたりデコードしたりして遊んでみてねーとのことですね。エンコーダ・デコーダに使用するモデルを変更してみても面白いかもしてません。

2016.04.30 追記

attention mechanism については、エンコーダーデコーダーモデルにそういう+αもあるよという一般的な説明であって、実際に論文で説明している手法には使用されていないようです。

word2vec の結果を利用して RNN で文章を生成してみる(1)

chainer のサンプルの中には RNN 利用して文章を学習し、コンテキストに沿った単語を選択できるようになる ptb のサンプルが付属しています。

今回はこいつをちょっと改造して、単語の識別IDではなく、word2vec で生成したベクトルを用いて ptb サンプルと同じことをやってみようと思いま......したが、残念がら chainer の仕様理解ができていなかったようで、一切パラメーター更新ができておらず、4000円ほどドブに捨てる結果となってしまいました。辛すぎる!

そういうわけで今日のところは、こういう風にやったらうまく学習できなかったという記録のみ記載しておきたいと思います。原因分かり次第、追記か別記事を書きます。

今回学習がうまくいかなかったモデルは以下のように実装しました。元の ptb サンプルから embedID のレイヤの関数を取り除き、Classification で loss を算出する代わりに、huber 損失関数という二乗誤差の親戚みたいな関数で loss を求めると言った構成になっています。入力は単語ベクトルで出力も単語ベクトルになります。LSTMかましていることからも分かるように、model をリセットするまでは以前の入力値も反映した出力をしてくれるモデルです。

class RNNLM(chainer.Chain):
    def __init__(self, n_vocab, n_units, train=True):
        super(RNNLM, self).__init__(
            l1=L.LSTM(n_vocab, n_units),
            l2=L.LSTM(n_units, n_units),
            l3=L.Linear(n_units, n_vocab),
        )
        self.train = train

    def reset_state(self):
        self.l1.reset_state()
        self.l2.reset_state()

    def __call__(self, x, t):
        h1 = self.l1(F.dropout(x, train=self.train))
        h2 = self.l2(F.dropout(h1, train=self.train))
        y = self.l3(F.dropout(h2, train=self.train))
        return F.huber_loss(y, t)

そして、このモデルの loss に対して特に何も考えずにもとの ptb サンプルと同様に、backword して、unchain して、optimizer を update したのですが、全くろくな結果を得ることができませんでした。調べてみると、重み値の更新が一切行われておらず、初期値のまま。 ......なんでや。Function でなくちゃんとレイヤをかまさなければならないのか、それとも loss の扱い方が悪かったのか。

<<追記>> 2016.4.17 夜

huber_loss で学習ができない件について、自己解決しました。huber_loss はミニバッチの学習には対応していないようで、そのために全く学習ができていなかったようです。実装上の都合なのか、関数の制限なのかは勉強不足ため理解できていませんが、ひとまず huber_loss の部分も二乗誤差に差し替えることにより無事学習が行えました。やったね!

しかし学習はできているようであるものの、全くいい感じに文章を覚えてくれません。やたらめったらΣを押してくるこになってしまいました。バッチサイズがでかすぎたのか、エポック数が足りないのか、単純に二乗誤差では学習がうまくいきにくいのか。ちょっと文献をあさってみる必要がありそうです。

Wikipedia を word2vec する

前回、青空文庫で word2vec を試してみましたが、結果を見ての通り、作家によって類似する単語が違ったり、そもそも語彙が少ないため、あまり汎用性のある結果を得ることはできませんでした。

ksksksks2.hatenadiary.jp

そこで今回は、日本語 Wikipedia のダンプデータを使用して、word2vec で学習させてみました。 Wikipedia ではこちらに記載されているように、Wikipedia 上で作成された様々なデータのダンプデータを配布しています。主なものだと、全ページの要約や全文、変わったものだと、ページ間のリンク関係のデータなどが含まれています。 今回は、日本語の最新情報から全文情報を取得して、使用しました。ちなみに、このデータは圧縮時でも2GB、展開すると10GB近くあるデータになります。このデータは XMLwiki 記法で記述されておりそのままでは使用できないため、wikiextractorを使用して平文になおした後、mecab分かち書きに変換して学習に用いました。ちなみに学習に用いたデータは3GBほどになります。

結果の比較のため、イテレーション回数と学習アルゴリズムを変えて試してみました。イテレーション回数は、1回と10回。アルゴリズムは、cbow と skip−gram を使用しました。word2vec と cbow の詳細は、前回の記事ををご覧ください。skip−gram は、cbow とは逆で単語を入力し文脈語を出力するニューラルネットワークを学習する点が特徴です。サンプリングなどの学習に用いるテクニックは cbow と共通ですが、バックプロバケーションの必要がある出力が多いため、cbow より3〜4倍ほど学習に時間がかかります。 CPU4コア、メモリ16GHzの環境だと、skip−gramでイテレーション回数を10回にした場合、だいたい丸二日ほどかかりました。

できれば評価データを用いて定量的に見たかったのですが、日本語での評価データを探しきれなかったため、前回と同様、何個かピックアップして結果を見ていきたいと思います。結果を見るのは、単語同士の類似度比較と、単語の組み合わせでの類似度(足し算引き算の結果)比較を行いました。

  • 単語類似度

問題

ランク cbow 1 skip−gram 1 cbow 10 skip−gram 10
1 弊害 解決 課題 解決
2 課題 課題 矛盾 課題
3 不都合 コンフリクト 不都合 難問

明日

ランク cbow 1 skip−gram 1 cbow 10 skip−gram 10
1 きっと あした いつか あした
2 あした 明後日 きっと あす
3 君たち きっと あした きっと
  • 単語の組み合わせ類似度

日本 + 東京 - アメリカ

ランク cbow 1 skip−gram 1 cbow 10 skip−gram 10
1 ロサンゼルス ニューヨーク ニューヨーク ニューヨーク
2 ニューヨーク ヨンカーズ ロサンゼルス ロサンゼルス
3 サンフランシスコ ファロン ロンドン カリフォルニア

昼 + 太陽 - 夜

ランク cbow 1 skip−gram 1 cbow 10 skip−gram 10
1 満月 満月 満月 満月
2 夜空 夜空 夜空 トラウィスカルパンテクートリ
3 地平線 まばゆい 地平線 ぃだ

基本的にイテレーション回数が多い方が良いように見えますが、4番目の「昼 + 太陽 - 夜」を見ると、skip−gram 10の2,3番目の結果は全く意味が分かりません。「トラウィスカルパンテクートリ」はアステカ神話における明けの明星を擬人化した神様であるとのことです。「ぃだ」については全くわかりません。「てぃだ」であれば沖縄で太陽を意味する方言になりますが、mecab分かち書きする時点でうまく処理できていないものと思われます。

また、「明日」の類似単語として「きっと」が現れたり、「日本 + 東京 - アメリカ 」の結果に「ワシントン」が出てこないなど、必ずしも意図していない結果が出てきています。このあたりのアルゴリズムコーパスと欲しい結果とのギャップを埋めるようなワンクッションが、学習過程か学習結果の利用時にまだまだ必要そうです。

word2vec を青空文庫で試してみる

word2vec は単語のベクトル表現をえるための手法の一つで、ニューラルネットワークを利用して行われているものです。 登場した当時の他の単語ベクトル生成手法に比べ高速に、そして単語関係の表現能力が高い獲得できる点がポイントです。 CBOWとskip−gramの2つのアルゴリズムが提案されていて、今回はCBOWを使ってみました。

CBOWは、注目する単語の周辺 N 語を入力すると、注目する単語にカテゴライズするように学習します。 ニューラルネットワークの形としては、やや変則的ですが、入力層がNxV(Vは単語数)、出力層がVの2層のニューラルネットワークになります。 入力層から隠れ層への重み行列は単語ごとに共通で、単語表現を合計した後、V次元の入力層に入力するのと同じになります。 入力層や出力層での単語表現は、IDの割り当てになります。その単語を表現する次元は1、それ以外は0になっているベクトルです。 一方、学習の結果得ることができる単語ベクトルは、入力層から隠れ層への重み行列を用います。 このことにより、学習器が獲得した内部表現を利用することができるようになります。

ちなみに今回は、chainer のword2vecサンプルではなく、C言語実装のword2vecを利用しました。 理由としては、単純にこっちの方が非常に高速だからです。こちらのブロク記事で一目瞭然ですが、C言語実装のword2vecはCPUだけで非常に高速に動作します。 C言語で実装されているということと、頻出語の学習を極力行わないようにするサブサンプリングという処理を行っているのが大きいのだろうと思います。

データには、青空文庫のテキストデータを使用しました。特定の作家の作品を全て落としてきて、青空文庫用の特殊記法やヘッダー、フッターを以下のようなコードで削って利用しました。 また、テキストを分かち書き形式にしておく必要がありますが、それにはmecabを利用しています。

import re
import argparse

# 文中の特殊記号の正規表現
replace_regex = [
    re.compile("《.+?》"),
    re.compile("|"),
    re.compile("[#.+?]"),
    re.compile("〔.+?〕")
]

def aozora2txt(input, output):
    f_in = open(input, 'r', encoding='shift_jis')
    f_out = open(output, 'a', encoding='utf-8')

    # 本文推定用
    start_line = "-------------------------------------------------------"
    end_word = "底本:"
    start_line_count = 0

    for line in f_in:
        # 終了と開始を判定する
        if line.find(end_word) > -1: break
        if line.find(start_line) > -1:
            start_line_count += 1
            continue
            
        if start_line_count < 2: continue
        
        for regex in replace_regex:
            line = regex.sub('', line) # 本文中の特殊記号を除去
        f_out.write(line)

    f_in.close()
    f_out.close()

作家は、夏目漱石太宰治。類似単語を検索する単語には、人生、愛。 パラメーターによる結果比較のため、出力するベクトルの次元数と、サブサンプリングに利用する値を変えてみています。ベクトルの次元数を変えることで獲得される内部表現の形が、サブサンプリングに利用する値を変えることで頻出語の扱われ方がそれぞれ影響を受けます。

  • 人生

夏目漱石

ランク ベクトル100
サンプリング1e-2
ベクトル200
サンプリング1e-2
ベクトル100
サンプリング1e-4
ベクトル200
サンプリング1e-4
1 人世 人世 触れろ 意義
2 自己 宇宙 意義 人世
3 宇宙 人格 美的 触れろ

太宰治

ランク ベクトル100
サンプリング1e-2
ベクトル200
サンプリング1e-2
ベクトル100
サンプリング1e-4
ベクトル200
サンプリング1e-4
1 人間 奇蹟 ドラマ ドラマ
2 青春
3 行為 行為 現実 青春

夏目漱石

ランク ベクトル100
サンプリング1e-2
ベクトル200
サンプリング1e-2
ベクトル100
サンプリング1e-4
ベクトル200
サンプリング1e-4
1 弄ぶ 対象
2 個々 純潔 深刻
3 宇宙 宇宙 信念

太宰治

ランク ベクトル100
サンプリング1e-2
ベクトル200
サンプリング1e-2
ベクトル100
サンプリング1e-4
ベクトル200
サンプリング1e-4
1 遂行 遂行
2 正義 愛情 異性 異性
3 愛情 信実 愛情 表現

結果としては、作家と頻出語の扱いの違いが、類似語の探索結果に大きく影響を与えているようです。思ったより出力次元数には影響がないようですね。一作家の文章だけなので全体として語彙が少なめ(一万五千語くらい)だからかもしれません。