Language Models Are Few Shot Learners (2020)
April 12, 2025Language Models are Few-Shot Learnersは、Few-shot learningで学習したGPT-3とパラメタ数の少ないファインチューニングしたモデルのタスク処理を比較し、パラメタ数を大幅に増やすことでも予測性能を向上できることを示した。 GPT-3のパラメタ数は1750億であり、その数は、比較対象のファインチューニングされたモデルよりも10倍ほど大きい。 GPT-3のネットワークアーキテクチャはGPT-2と大きく変わらないが、Sparse Transformerに似た注意機構を導入したところが異なる。
実験したタスクには、文字列の穴埋め、文書についての質問応答、翻訳、代名詞の照応を推論、常識推論、文書読解、自然言語推論、加減算があった。 文の最後の単語を推測するタスクLAMBADAではfew-Shot LearningがSOTAを上回る性能を発揮するなど、few-shot learningでSOTAに匹敵する性能を発揮できるタスクがあった。 一方で、重複する文を含む文書を生成されたことや、単語が文中で同じ意味で使われているか推測する性能がランダムに答えを選ぶ場合と変わらないことなどの限界もみられた。