AN IMAGE IS WORTH 16x16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(2021)
画像認識にTransformerを使う手法を提案し、Big TransferとNoisy Studentと比較した。 論文が発表された2021年でも、画像認識にニューラルネットワークを使う場合、畳込みニューラルネット(CNN)が基本の選択肢になる。 自己注意機構を使った画像処理の先行研究はあるが、スケールするアーキテクチャではない。
AN IMAGE IS WORTH 16x16 WORDSは、分割した画像をトークン(単語)のようにTransformerへ入力することで、Transformerを画像認識へ応用できるこを示した。 TransformerはCNNのように画像の向きや局所性を帰納バイアスにもたず、データが不十分でないと汎化性能は低い。 しかし、学習データを14M-300Mまで増やすと、CNNを越える汎化性能を発揮した。