抄訳 Learning Active Learning from Data(2017)

#Active Learning

July 27, 2019

概要

能動学習は、できるだけ少数のサンプルでモデルの予測性能を向上できる学習データセットを集める技術である。論文は、2値分類問題のための能動学習で、サンプルを教師データに追加したときの汎化誤差の減少値を予測し、追加すべきサンプルを推定する。

減少値を推定する回帰モデルは、分類器にラベルなしのサンプルの与えたときの出力と学習済み分類器のパラメタを入力として、サンプルを教師データに加えたときの汎化誤差の減少値を予測する。論文では、この回帰モデルを学習するための2通りのアルゴリズムが提案されている。以下の解説は、そのうちの1つであるBUILDLALINDEPENDENTである。

回帰モデルの教師データの作成するために、訓練データ$\mathcal{D}$、テストデータ$\mathcal{D}’$、分類器のアルゴリズム$f$を入力として、$2\leq\tau\leq T+1$について$Q$回以下のステップを実行し、$QMT$件の教師データを作成する。

$D$を、$\tau$件の訓練データ$\mathcal{L_{\tau}}$とラベルなしデータに$\mathcal{U}_{\tau}$に分ける。
$\mathcal{L_{\tau}}$で$f_{\tau}$を学習する。
$D’$で汎化誤差$\ell_{\tau}$を計算する。
$f$を定義するパラメタ$\{\phi^1_\tau, \dots,\phi^K_\tau\}$を記録する。分類器固有の値や訓練データに影響される値などが$\phi$に該当する。たとえば、木の深さやカーネル関数の種類が値になりえる。
$1\leq m\leq M$の範囲で以降のステップを繰り返す。
無作為に$x\in\mathcal{U}_\tau$を選び、$\mathcal{L}_\tau\cup\{x\}$を$\mathcal{L}_x$として新たな訓練データを作成する。
$x$があるクラスである確信度や、$x$から最も近いラベル付きデータからの距離など、$f$に入力される特徴以外の$x$の要素を、$\{\psi^1_x,\dots,\psi^R_x\}$として記録する。
$\mathcal{L}_x$で$f_x$を学習し、$D’$をもとに汎化誤差$\ell_x$を求める。
$\[\phi^1\_\tau\ \dots\ \phi^K\_\tau\ \psi^1\_x\ \dots\ \psi^R\_x\]$を$\xi_m$、$x$を訓練データに加えたことで減少した汎化誤差$\ell_\tau - \ell_x$を$\delta_m$として、回帰モデルの訓練データの一つとして記録する。

収集した教師データで学習した回帰モデルを$g$とすると、以下の$x^*$が最も汎化誤差を小さくするためにアノテーションすべきサンプルの推定値となる。

$$ \newcommand{\argmax}{\mathop{\rm arg~max}\limits} x^{*} = \argmax\_{x\in\mathcal{U}\_t} g(\phi\_t,\psi\_x) $$

感想

データの分布が及ぼす性能への影響を分析に人工データを使うところが参考になる。分類器の状態$\phi$を特徴に含めているので、評価において様々な分類器やハイパーパラメタのモデルの評価をしてほしかった。

論文はこちらからダウンロードできます。