Unsupervised Cross-lingual Representation Learning at Scale (2020)
June 3, 2023多言語モデルを大規模なコーパスで訓練し、含意関係認識、質問応答、固有表現抽出において、多言語版のBERTを上まわる予測性能を実現した。 モデルのアーキテクチャはRoBERTaで、Lample and Conneau, 2019に近い方法でモデルを訓練する。 LampleとConneauの手法を含む従来の多言語の言語モデルの評価実験では、WikipediaやWikipediaと同程度の大きさのコーパスが使われていた。 従来の訓練データに対し、100言語からなる2.5TBのCommonCrawlをコーパスに使い、コーパスを大規模化することによるモデルへの影響を分析した。 パラメタ数などのモデル大きさを固定し、言語の種類数を30まで増やしたところ、コーパスの小さい言語の性能が向上したが、それ以上増やすと逆に予測性能が低下した。
LampleとConneauによる語彙は、Byte Pair Encoding(BPE)で結合した文字列の集合であり、多言語の文字列からなる。 言語の数を\(N\), 言語\(i\)の単語の種類数を\(n_i\)とおく。 このとき、各言語について、確率\(\{q_i\}_{i=0\dots N}\)で選んだ言語の文を無作為に抽出し、BPEを適用する。 $$ q_i=\frac{p^\alpha_i}{\sum^N_{j=1}p^\alpha_j},\ p_i=\frac{n_i}{\sum^N_{k=1}n_k} $$ \(\alpha\)はコーパスの小ささに対するペナルティの大きさを調整するためのハイパーパラメタである。
学習では、マスクされた単語を特定できるようにモデルを訓練する。
論文のリンク
雑記
言語の数を増やすと、ある程度まではコーパスの小さい言語に関して予測性能が向上する。しかし、コーパスの大きい言語については、言語の数を増やすと一貫して予測性能が低下する実験結果になっている。