Semi-supervised Sequence Learning(2015)
March 14, 2020系列データの教師あり学習において、ラベルのないデータを学習した言語モデルやオートエンコーダーの重みでLSTMを初期化することの有用性を実験的に示した。
本論文は、BERTにいたる系統につらなる。 系列データとして想定されているのはテキストであり、実験では4種類のデータセットがもちいられた。 オートエンコーダーで事前学習したLSTM(SA-LSTM)と発表当時における最高の性能をもつモデルで比較した結果を次に示す。
| データ | SA-LSTM | Previous best result |
|---|---|---|
| IMDB | 7.24% | 7.42% |
| Rotten Tomatoes | 16.7% | 18.5% |
| 20 Newsgroups | 15.6% | 17.1% |
| DBpedia | 1.19% | 1.74% |
LSTMは長い文書の扱うときにハイパーパラメタに性能が影響されやすいが、オートエンコーダーの重みで初期化すると安定することがIMDBの実験で分かった。 IMDBの各テキストの平均の単語数は241である。
論文はこちらからダウンロードできます。