概要
Fasttextの論文。
Character n-gramsを入力としてskip-gramのモデルを作る方法を提案、評価した。
単語の部分文字列(subword)を使わない手法や形態素解析に頼る手法よりも提案手法が優れていることを実験で示した。
単語のベクトルは部分文字列のベクトルの和である。
実験の考察では、そのために、未知語の部分文字列が学習データにあれば、未知語に対しても妥当な分散表現を与えることができるとあった。
感想
- Fastの由来は、skip-gramでは(非疎)行列の乗算がなく高速に処理できる*ことにあるように読めた。
論文はこちらからダウンロードできます。