Applying Deep Learning To Airbnb Search
概要
論文では、Airbnbが深層学習を宿泊先検索に適用した時の試行錯誤と結果を紹介している。 採用したモデルのアルゴリズムと特徴量エンジニアリングの説明が本稿の大部分を占める。 深層学習を試す以前はGBDTを採用おり、以下の順にアルゴリズムを変えていった。 当初は、アルゴリズムを段階的に高度にしていくつもりはなく、1.以前には複雑なアルゴリズムをいきなり試したが、失敗に終わっている。
論文では、Airbnbが深層学習を宿泊先検索に適用した時の試行錯誤と結果を紹介している。 採用したモデルのアルゴリズムと特徴量エンジニアリングの説明が本稿の大部分を占める。 深層学習を試す以前はGBDTを採用おり、以下の順にアルゴリズムを変えていった。 当初は、アルゴリズムを段階的に高度にしていくつもりはなく、1.以前には複雑なアルゴリズムをいきなり試したが、失敗に終わっている。
ROCとPrecision Recallの関係を示した論文。
論文はこちらからダウンロードできます。
Fasttextの論文。 Character n-gramsを入力としてskip-gramのモデルを作る方法を提案、評価した。 単語の部分文字列(subword)を使わない手法や形態素解析に頼る手法よりも提案手法が優れていることを実験で示した。 単語のベクトルは部分文字列のベクトルの和である。 実験の考察では、そのために、未知語の部分文字列が学習データにあれば、未知語に対しても妥当な分散表現を与えることができるとあった。
バージョン管理ツールで追跡されている変更とバグを紐付ける手法を提案した。
Mecabの中の人の資料で紹介でされている、Mecabのアルゴリズムを提案・評価した論文。
CRFに入力する学習データを集めるための半教師学習の手法を提案と評価した論文。 本手法はCRFに与える学習データを集めるための手法であり、CRFのアルゴリズム自体に変更を加えることはない。
提案手法は、Naive BayesとEMアルゴリズムを組み合わせたもの。 ラベル付きデータが\(D^l\)でラベルなしデータが\(D^u\)で表されるとき、対数尤度\(\log P(D^l)P(D^u)\)を最大化する問題を解く。