Supervised Learning of Universal Sentence Representations From Natural Language Inference Data (2017)
May 30, 2025Supervised Learning of Universal Sentence Representations From Natural Language Inference Dataは自然言語推論のデータセットであるStanford Natural Language Inference (SNLI) を使った文の埋め込みベクトルを生成モデルを教師あり学習を提案した。 7種類のネットワークアーキテクチャを12種類のタスクで評価したところ、双方向LSTMと最大値プーリングを採用したアーキテクチャが最も高い性能を発揮した。
文の間にある意味の推論を求める性質から、自然言語推論が訓練データとして選ばれた。 SNLIは、に対して含意、矛盾、中立の3種類のラベルのついた570,000件の前提と仮説の文のペアからなる。
入力から埋め込みベクトルまでは7種類のアーキテクチャで違うが、その先のネットワークは変わらない。 前提と仮説の埋め込みベクトル\(u, v\)を生成し、この2つのベクトルから計算した\( (u, v, |u-v|, u\odot v) \)を全結合層とソフトマックスに入力する。
最も高い性能を発揮した双方向LSTMと最大値プーリングの組合せは、はじめに順方向LSTMと逆方向LSTMの出力するベクトルを連結する。 一つの文に対して文中のトークン数だけベクトルが生成されるため、最大値プーリングで1つの文の埋め込みベクトルに集約する。 具体的には、各次元ごとに、トークンのベクトル間で最大の値を、文のベクトルの同次元の値として選ぶ。