Improving Language Understanding by Generative Pre-Training (2018)
Improving Language Understanding by Generative Pre-Trainingは教師なしの事前学習であり、GPTシリーズの最初のモデルにあたる。 12の自然言語処理タスクのうち9つについて、事前学習したモデルの出力を1層の全結合層に入力するファインチューニングで、当時のSoTAを上まわる性能を発揮した。
ネットワークは、transformerのデコーダーであり、Attention Is All You Needのエンコーダーは含まれない。 ファインチューニングでは、特徴の入力を事前学習のデータ形式に揃えることで、事前学習とファインチューニングの差異を埋める。 推論タスクであれば前提や仮定、テキストの類似性判定であれば比較する2つのテキストといった異種の特徴をデリミタで連結した系列を作り、モデルに入力する。