メモ Universal Language Model Fine-tuning for Text Classification

#Fine Tuning

September 14, 2018

概要

UMLFiTという、様々なNLPの問題に適用可能なファインチューニングの手法を提案、評価した。評価手段として、6種のテキスト分類のタスクにおける既存手法とのエラー率の比較が採られている。主要な評価として、100件のラベル付きデータだけでその100倍のデータを要した事前学習を用いない手法と同等の予測性能が出たことを報告している。

著者らはUMLFiTの次の性質によって、UMLFiTが表題にあるように普遍的であると主張している。

文章の長さ・量・ラベルの種類に依存しない
アーキテクチャや訓練手順がタスク依存ではない
特徴量エンジニアリングや前処理がいらない
訓練データ以外に問題ドメインの文書やラベルがいらない

著者らの提案内容は、アーキテクチャそのものではなく、既存のアーキテクチャ, AWD-LSTMに対して過学習を避けてファインチューニングするための手法になっている。その手法として次の3つを提案している。

パラメタをパラメタが位置するレイヤで分割し、レイヤごとに異なる学習率でパラメタを更新すること
学習率の値を更新するアルゴリズム
いきなり全ての層のパラメタを更新するのを避け、最後の中間層から最初の中間層に向かって順番にパラメタ更新対象の層を増やすこと

感想

本稿を読んだ動機は、ThoughtWorksのTechnology Radarに本稿が記載されていたこと。
既存手法を比較するときにerror rateで比較し、他の指標を用いなかった理由がわからない。
手法の普遍性を主張するのであれば、分類以外のタスクでの評価も知りたい。

論文はこちらからダウンロードできます。