抄訳 CatBoost: unbaiased boosting with categorical features (2017)
概要
表題はNeurIPS 2018で発表されたCatBoostという勾配ブースティングの手法を論文にちなむ。 Target Statisticsというカテゴリカル特徴量の前処理と勾配ブースティングの学習時に生じる一種のleakageが起きることを示し、leakageをさけて前処理と学習をする手法を示した。 CatBoostは二進木の決定木を弱識別器に用いる。
表題はNeurIPS 2018で発表されたCatBoostという勾配ブースティングの手法を論文にちなむ。 Target Statisticsというカテゴリカル特徴量の前処理と勾配ブースティングの学習時に生じる一種のleakageが起きることを示し、leakageをさけて前処理と学習をする手法を示した。 CatBoostは二進木の決定木を弱識別器に用いる。
ニューラルネットワークを用いた推薦システムを提案、評価した論文における実験の再現性と予測性能の再評価した。 発表学会は、2019年のRecSys。 著者らは、以下の2つのRQに回答するためにトップ会議で発表された18の論文を調査した。 その結果、実験を再現できた論文は7稿であり、その中でも単純な手法を上回る性能が認められたのは1稿だけだった。
ガウス過程を回帰の問題に応用した。 著者らは、scikit-learnのガウス過程回帰の 元になっているGaussian Processes for Machine Learningの著者と同じ。 論文の構成は、ガウス過程回帰の予測分布の式、ハイパーパラメタ推定方法、実験による評価からなる。
VizierはGoogleで開発されたブラックボックス最適化のためのサービスである。 論文は、Vizierのシステムアーキテクチャの構成とアルゴリズムの説明とその評価からなる。
能動学習は、できるだけ少数のサンプルでモデルの予測性能を向上できる学習データセットを集める技術である。 論文は、2値分類問題のための能動学習で、サンプルを教師データに追加したときの汎化誤差の減少値を予測し、追加すべきサンプルを推定する。
TextRankは、ドキュメントからキーワードとキーセンテンスを抽出するためのグラフベースのアルゴリズムである。 TextRankは、単語を頂点、文書をグラフとみなすことで、PageRankを応用する。 頂点の重要度を、頂点の内容のような局所的な情報ではなく、他の頂点との辺の接続関係を含むグラフ全体の大域的な情報から決定する。 TextRankは、PageRankと違い、辺ごとに重みを設定できる。
SentencePiece(ニューラルネットワークを用いた言語処理向けのトークナイザ・脱トークナイザ)のトークナイズのアルゴリズムである。 単語をサブワード(単語の部分文字列)に分割し、サブワードを組み合わせて珍しい単語や未知語を表現することで、これらの出現頻度の低い単語の翻訳上げるというもの。
Attention Is All You Needで提案されたTransformerのアーキテクチャを、サンプルコードとオリジナルの論文の引用を交えて解説している。 PyTorchで実装されている。
一階述語論理式で表現されたクエリを満たすノードを、分散表現に変換し、ナレッジグラフの中から計算時間上効率よく見つけるアルゴリズムを提案した。 クエリに現れるエッジの数に対して計算時間が線形であることが特徴。 ただし、クエリには、存在量化と連接を使えるが、全称量化、選択、否定を使うことができない制約がある。