NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE(2015)
概要
Decoderに注意機構を採用したencoder-decoderモデルを提案したICLR2015の論文である。 論文の発表当時、encoder-decoderモデルによる翻訳の多くは、encoderが入力文を固定長ベクトルに変換し、固定長ベクトルから翻訳された文を出力していた。 著者らは、固定長ベクトルへの変換が長い文の翻訳性能を下げていると考え、固定長ベクトルを注意機構におきかえたencoder-decoderモデルを提案した。 モデルは、翻訳に加え、生成する単語と入力文の箇所の関係を学習する。 推定時には、まず、次に生成する単語に関係する入力文の箇所を推定する。 次に、推定された箇所と生成済の単語列をもとに、単語を生成する。 特に長い文書の翻訳において、固定長ベクトルをつかうモデルよりも、提案手法が優れていることを実験的に示した。