The Annotated Transformer (2018)
July 1, 2019Attention Is All You Needで提案されたTransformerのアーキテクチャを、サンプルコードとオリジナルの論文の引用を交えて解説している。 PyTorchで実装されている。
Attention自体は既存技術であり、すでに深層学習による自然言語処理のような参考書でも取り上げられている。 そこでは、「複数のベクトルがあったときに、どのベクトルを重要視するかも含めて学習させる仕組みのことを注意機構(attention mecanism),あるいは注意と呼びます」とある。 attentionには、いくつか種類があり、元の論文によれば、中でもよく使われているのがadditive attentionやdot-product attentionとのこと。既存手法の一部を除けば、系列モデリングにおいては、回帰結合型ネットワークとattentionを組合わせたアプローチが採用されることがほとんであった。 元の論文の新規性は、表題の通り、回帰結合型ネットワークや畳み込みネットワークを使わず、attentionだけを使い、既存手法を上回る翻訳の性能を出せたことにある。 論文の位置付けは、既存研究の理解のための補助資料であり、学問上の新規性を意図したものではない。 一方で、BERT: Pre-training of Deep Bidirectional Transformers for Lnaguages Understaingで、この論文への参照があった。
論文をこちらからダウンロードできます。