LLaMA Open and Efficient Foundation Language Models (2023)
March 14, 2024スケーリング則によれば、Transformer型モデルのテストデータに対する交差エントロピーの損失は、のこり2つの要素がボトルネックにならないかぎり、パラメタ数、データ量、訓練時間とべき乗の関係にある。 パラメタをふやすほど損失を下げることができる。
Hoffmann et al. (2022) は、訓練に使えるFlop数が一定のときに、事前学習時の損失を効果的に下げるには、訓練時に参照するトークン数、パラメタ数を等しい比率でスケールすべきと結論づけた。 実験のために開発されたパラメタ数70BのモデルChinchillaはパラメタ数175BのGPT-3の性能を上回った。
しかし、訓練時の損失を目標まで下げるまでにかかるFlop数が少ないモデルほど、推論時もプロセッサの利用効率がよいとはかぎらない。 たとえば、パラメタ数の大きいモデルが小さいモデルよりも高いプロセッサの利用効率で訓練時の損失を目標以下にできても、推論に必要なFlop数はパラメタ数が多いモデルのほうが大きい。
スケーリング則より、推論にかかるFlop数を下げるには、訓練で参照するトークン数と訓練時間を増やさなければならない。 LLaMAは、既存の著名なTransformer型モデルよりも多くのトークンを学習し、推論に必要なFlop数を固定したときの最高の予測性能を調べる。 パラメタ数を固定することが、必要なFlop数を固定することとみなされている。 実験の結果、パラメタ数7Bの小規模なLLaMAの損失が1Tトークン以上の学習後も下がることが確認された。 また、1.0Tのトークンを学習したパラメタ数13BのLLaMAは、GPT-3の性能を上回り、1.4Tトークンを学習したパラメタ数65BのLLaMAは70BのChinchillaに匹敵する性能になった。
LLaMAは、ChinchillaやGPT-3と違い、公開データのみで訓練されている。
LLaMAとTransformerのアーキテクチャ上の主要な違いは、正規化、活性化関数、エンベディングにある。 出力の代わりに各サブレイヤーの入力を正規化し、正規化にはRMSNormnが使われる。 活性化関数はReLUからSwiGLUに、絶対位置のエンベディングはrotary positional embeddings (RoPE) におきかえられている。
雑記
主要なLLMよりも多くのトークン数で学習したと主張しているが、LLaMA-65Bの学習したトークン数はChinchilla-70Bの1.4Tと等しい。 多くのトークン数で学習した結果を成果にするなら、主要なLLMよりもパラメタ数の少ないLLaMA-7Bを1Tのトークンで学習した結果のほうが重要そう。