論文メモ Deep contextualized word representations
文脈をふまえた単語の分散表現を生成する手法を提案し、教師あり学習に応用することで評価した論文である。 文字単位の学習済み双方向LSTM言語モデルへの入力と各層の出力から分散表現をつくる。 言語モデルの入力やどの層をどれだけ重視するかは、教師あり学習のときに更新するパラメタのひとつになる。 実験では、構文にかかわるタスクであれば入力層に近い層が、意味にかかわるものであれば出力層に近い層が、重視された。 モデルは、Embeddings from Language Modelsにちなみ、ELMoと名付けられた。