抄訳 Bidirectional LSTM-CRF Models for Sequence Tagging(2015)
October 5, 2018概要
NLPにおける系列ラベリングためのニューラルネットワークアーキテクチャの提案と評価がなされている。 このアーキテクチャは、当サイトで以前紹介したContextual String Embeddings for Sequence Labelingで応用されている。
評価に用いられたタスクはPOS, chunking, NERの3つであり、実験では2015年時点の既存手法と比較して最高のaccuracyが得られた。 実験で使用された入力は3種類あり、小文字に変換された単語、表記情報、n-gramになった隣接する小文字になった単語である。 表記に関わる情報とは、単語が大文字から始まるか、単語に数字が含まれる化などの特徴量エンジニアリングで抽出される情報をさす。
ネットワークは、Bidirectional LSTMのうしろにCRFがあるアーキテクチャである。 Bidirectional LSTMは、先頭から入力される系列と後方から入力される系列をもとに系列のタグを予測する。 CRFは入力に加えて以前のタグもタグの予測に使われる。 本手法の着想は、Bidirectional LSTMとCRFではタグの予測に使う情報が異なることに注目したことにある。 アーキテクチャを流れる系列の様子を以下に示す。
感想
意外だったのは、評価で比較されたアーキテクチャにBLSTM-CRF, LSTMなど深層学習に属するものが含まれる中で最も精度の高いベースラインとなったのはCRFだったこと。 ただし、単語のみを入力した場合、CRFは他のアーキテクチャと比べて大幅に精度が落ちており、著者らはCRFの精度は特徴量エンジニアリングによるものだと評価している。 かえりみるに、実プロジェクトにおいて特徴量エンジニアリングが大変でなければCRFだけでも高い精度を出せるのか興味がある。
論文はこちらからダウンロードできます。
図は論文からの引用です。