Wide and Deep Learning for Recommender Systems (2016)
December 16, 2023推薦システムに一般化線形モデルや深層学習を応用する場合、両者には一長一短がある。 一般線形化モデルは、学習データに忠実かつ解釈しやすい推測を出力するが、交互作用では学習データにないアイテムを推薦できない。 深層学習は、汎化性能にすぐれるが、疎で高ランクな行列を学習しがたい。 Wide & Deep Learning for Recommender Systemsは、一般線形化モデルとフィードフォワードニューラルネットワーク (FFN) の出力の重みつき和をロジスティック関数に適用し、両者の利点を生かし欠点をおぎなうモデルである。
次元数の\(d\)の特徴を\(\textbf{x}=[x_1, x_2, \dots, x_d]\), バイアス項を\(b\), 重みを\(\textbf{w}\)とすると、一般化線形モデルを\(y=\textbf{w}^T\textbf{x}+b\)と表せる。 \(k\)番目の交互作用が\(i\)番目の特徴を採用する場合に\(c_{ki}=1\), しない場合に\(c_{ki}=0\)となる\(c_{ki}\)として、\(k\)番目の交互作用項を\(\phi_k(\textbf{x})\)とおく。 $$ \phi_k(\textbf{x})=\prod^d_{i=1}x^{c_{ki}}_i\ c_{ki}\in\{0, 1\} $$
FFNは、\(\textbf{x}\)を低次元の埋め込みベクトルに変換する層のあとに隠れ層がつづき、\(l\)を層の位置、\(f\)を活性化関数とすると\(a^{(l+l)}=f(W^{(l)}a^{(l)}+b^{(l)})\)となる。 なお、アーキテクチャはFFNでなくてもよい。
モデルは、一般化線形モデルとFFNのログオッズの重みつき和にロジスティック関数を適用した値を出力する。 一般化線形モデルは、もとの特徴\(\textbf{x}\)と交互作用\(\phi(\textbf{x})\)を連結した行列\([\textbf{x}, \phi(\textbf{x})]\)をうけとる。 このとき、2クラス問題を推定するモデルは $$ P(Y=1|\textbf{x})=\sigma(\textbf{w}^T_{\textit{wide}}[\textbf{x}, \phi(\textbf{x})]+\textbf{w}^T_{\textit{deep}}a^{(l_f)}+b) $$ となる。