抄訳 Learning to Rank with Nonsmooth Cost Functions (2006)

January 23, 2023

情報検索の指標は、モデルの返す文書の順序を評価する。指標の関数自体を損失関数にできれば、重みの更新を指標に最適化できる。ところが、文書の順序を評価する指標は、重みによる微分が未定義や0になりえるので、損失関数には使えない。 LambdaRankは損失関数に直接は使えない関数を学習に応用するアルゴリズムである。 RankNetをLambdaRankで学習することで、学習時間を短縮し、NDCGを向上できた。

RankNetは、2つの文書からクエリに適合する方を選べるように学習する。損失関数$C_T$に交差エントロピーを使う場合、文書$i, j$を入力したときのスコアの差$s_i - s_j$をシグモイド関数にあたえ、その値を文書$i$が$j$よりも適合する確率とみなす。学習データの集合を$\mathcal{P}$, モデルの重みを$w_k\in\mathcal{R}$とするとき、$w_k$で$C_T$を偏微分すると

$$ \begin{align} C\_T&\equiv\sum\_{\\{i,j\\}\in P}C(s\_i,s\_j)\\\\ \frac{\partial C\_T}{\partial w\_k}&=\sum\_{\\{i,j\\}\in P}\frac{\partial C(s\_i, s\_j)}{\partial s\_i}\frac{\partial s\_i}{\partial w\_k} + \frac{\partial C(s\_i, s\_j)}{\partial s\_j}\frac{\partial s\_j}{\partial w\_k}\\\\ \end{align} $$

もっとも、式が成立するには$C(s_i, s_j)$が$s_i$と$s_j$でつねに偏微分できなければならない。そこで、クエリ$i$を与えたときにモデルが出力する$n_i$個のスコアを$s$とラベルを$l$として

$$ \frac{\partial C}{\partial s\_j} = -\lambda\_j(s\_1, l\_1,\dots, s\_{n\_i}, l\_{n\_i}) $$

が存在する必要十分条件を求める。

ポアンカレの補題より、$S\in \mathcal{R}^n$が星型の開集合であるとき、$S$上の閉形式は完全である。同時に完全形式は閉形式であるから、星型の開集合上の微分形式が完全形式であり、かつそのときに限り、閉形式になる。 $\mathcal{R}^{n}$上の1-形式の基底を$dx^j$として$\boldsymbol{\lambda}$を

$$ \boldsymbol{\lambda} \equiv \sum\_j \lambda\_j dx^j $$

と定義する。このとき1-形式$\boldsymbol{\lambda}$は閉であるから

$$ \frac{\partial \lambda\_k}{\partial x^j} - \frac{\partial\lambda\_j}{\partial x\_k} = 0\ \ (\forall k < j \le n\_i) $$

である。以上から

$$ \frac{\partial\lambda\_j}{\partial s\_k} = \frac{\partial \lambda\_k}{\partial s\_j}\ \ \forall j,k \in \\{1,\dots , n\_i\\} $$

が成りたつような$C$であればよい。

RankNetの高速化をはかる実験では、複数の損失2つの文書を入れ換えてえられるNDCGの利得とRankNetの損失関数の積が、損失関数に使われている。このとき

$$ \lambda = N\left(\frac{1}{1+e^{s\_i-s\_j}}\right)(2^{l\_i}-2^{l\_j})\left(\frac{1}{\log(1+i)}-\frac{1}{\log(1+j)}\right) $$

である。

論文のリンク