Posts

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)

BERTは、Bidirectional Encoder Representations from Transformersの略称で、Transformerのエンコーダー部で、順方向と逆方向のテキストからテキストの分散表現を生成する。事前学習では、周辺のトークンからマスクされたトークンを推定する教師なしタスクのMaksed Language Model (MLM) と2つの文が隣接した箇所から抜きだされたかを判定するタスクのNext Sentence Prediction (NSP) でモデルを訓練する。

December 14, 2019

150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com(2019)

概要

宿泊予約サービスBooking.comにおけるモデルの開発運用でえられた教訓を6つにまとめたKDD2019の論文である。教訓の主眼を収益におき、6つの教訓を通して、実運用環境における仮説と実験を反復する重要性を強調する。

December 14, 2019

Ranking Relevance In Yahoo Search(2016)

概要

Yahooの検索エンジンを解説するKDD16の論文である。論文におけるランキングの課題は、クエリと文書の語彙がことなること、ほとんどのクエリは滅多に入力されないこと、クエリの意味の解釈が難しいことである。これらの課題に対する手法として、ランキングのモデル、特徴のつくりかた、クエリを文書によせる翻訳モデルを解説する。

#ランキング学習

December 7, 2019

A Dual Embedding Space Model for Document Ranking

Dual Embedding Space Model(DESM)は、word2vecによるランキング学習である。 word2vecは、単語ごとに、入力と出力それぞれに近い重みから、2つの分散表現を生成できる。 DESMは、入力側の重みでクエリを、出力側の重みで文書を、それぞれ分散表現に変換する。

実験では、BM25と比較して評価した。 DESMだけで順位づけをすると偽陽性が高くなるが、DESMとBM25の加重平均をとるとBM25よりも高いNDCG値になった。アルゴリズムを実装し公開した。

November 30, 2019

論文メモ On Calibration of Modern Neural Networks(2017)

ネットワークの複雑化、バッチ正則化、重み減衰を使わない、負の対数尤度の過学習が汎化精度を上げるが、予測確率と精度のズレを大きくすることを実験的に示した。予測確率を補正する6つの手法を19種類のクラス分類のデータセットに適用した結果、最も補正できたものは、温度つきソフトマックスの出力を予測確率にする場合であった。

#Confidence Calibration

November 23, 2019

概要 Trinary-Projection Trees for Approximate Nearest Neighbor Search(2012)

Trinary-Projection Trees(TP trees)は、kd木のように、ユークリッド空間の分割を二分木で表現できるデータ構造である。超平面は1または-1の重みのついた少数の座標軸で定義される。これにより、探索時の分岐にかかる計算が、加算と減算だけからなる\(O(1)\)となる。また、射影されたデータの分散の大きい超平面を探し、同じ分割にある点同士の距離を小さくすることで、精度を向上させている。

#Nearest Neighbor

November 16, 2019

論文メモ Get Another Label? Improving Data Quality and Data Mining Using Multiple, Noisy Labelers(2018)

概要

ある確率でデータに誤ったラベルをふるlabelerでデータにラベルをふるときに、既にラベルのあるデータに重ねてラベルをふるべきか調査した。 12種類のラベルつきデータセットを使い、正解ラベルを誤ったラベルに置換する割合や同一のデータのもつラベルの数を変化させ、モデルの精度の違いを観察した。加えて、ラベルをふるべきデータを推定する手法も提案している。

#Weak Supervision

November 9, 2019

メモ ActiveClean: Interactive Data Cleaning For Statistical Modeling(2016)

ActiveCleanは、教師データの誤りを修正し、モデルの精度を改善する手法である。優先して修正すべきデータを推定し、データが修正されたら修正されたデータでモデルを学習する。この修正と学習を条件を満たすまでくりかえす。反復的な学習で大域的最適解をえられるモデルであれば、最適解への収束が保証される。データの修正件数が等しい場合に、先行研究と比べて最大2.5倍の精度改善を達成した。

#Weak Supervision

November 9, 2019

概要 WebTables: Exploring the Power of Tables on the Web(2008)

概要

Web上の表から抽出した大量の関係モデルを対象にした検索を提案・評価した。検索の他にも、一部の属性を入力とするスキーマの補完、入力した属性ないしスキーマに類似のものを推定するアルゴリズムの議論もある。ここのスキーマは属性のリストである。論文の著者らは研究時にGoogleに在籍しており、論文で使われたコーパスはグーグルの汎用ウェブクローラで集めた141億のHTMLの表から抽出した高精度な154百万の関係モデルである。コーパスに使うものはHTML形式の表から抽出した関係モデルのみである。手法の新規性は、1億以上もの大量のテーブルを対象にしていることにある。

#データ収集

October 31, 2019

メモ A Survey on Data Collection for Machine Learning(2018)

機械学習に使う教師データに関するサーベイ論文であり、機械学習や自然言語処理などのデータの応用分野だけでなく、データの管理にまつわる分野の調査も含まれているところに特徴がある。データの管理に着目している理由は、深層学習の発展によって必要な教師データが増えたことで、データの管理の課題が顕在化してきたからである。

October 26, 2019