抄訳 Regularizing and Optimizing LSTM Language Models (2017)
November 23, 2018LSTMをつかった言語モデルに正規化と最適化を適用し、実験でperplexityを評価した。 LSTMの実装に変更を加えない手法なので、NVIDIAやcuDNNなどの高速でブラックボックスなライブラリで実装できる。
最適化
モメンタムをもちいない予測性能をあげられる立場にあり、学習率が一定のNon-monotonically Triggered ASGD(NT-ASGD)を提案した。 NT-ASGDのベースはAveraged SGD(ASGD)である。 ASGDとSGDの違いは、SGDが最後に更新された重みの値を返すのに対し、ASGDでは一定回数反復した以降の各時点での重みの平均値を採用する点にある。 ASGDを採用するには、平均の対象にするべき繰り返しの期間を設定する必要があり、チューニングがいる。 NT-ASGDは、モデルの性能を測るメトリクスの値を都度計測し、メトリクスの向上具合をもとに平均の算出対象の範囲を決めることで、自動でチューニングする。
正則化
本稿における正則化は、Deep Learningとおなじく、「訓練誤差ではなく、汎化誤差の削除を意図した、学習アルゴリズムに対するあらゆる改良」という意味で、複数のアプローチを採用している。その中で予測性能の向上に最も貢献したのは、LSTMの隠れ層に導入されたDropConnect(ドロップアウトを一般化したもの。ドロップアウトが活性化関数の出力のうち無作為に選ばれたものを0にするのに対して、DropConnectは無作為に選ばれた重みの一部を0にする。一つのスカラー重みと1つの隠れユニットの状態の席をドロップするユニット)であった。
感想
以前に本ページで紹介したUniversal Language Model Fine-tuning for Text Classificationのベースになっており、これに対する理解を深めるために論文にあたった。 本稿の利点として、既存の高速なライブラリを利用できることを主張しているので、処理時間の評価があってもいいと思った。
参考情報
- 論文はこちらからダウンロードできます。