BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)
BERTは、Bidirectional Encoder Representations from Transformersの略称で、Transformerのエンコーダー部で、順方向と逆方向のテキストからテキストの分散表現を生成する。 事前学習では、周辺のトークンからマスクされたトークンを推定する教師なしタスクのMaksed Language Model (MLM) と2つの文が隣接した箇所から抜きだされたかを判定するタスクのNext Sentence Prediction (NSP) でモデルを訓練する。