Posts

論文メモ Character-Aware Neural Language Models

概要

文字単位の入力から次に出現する単語を予測するニューラル言語モデルの論文である。アーキテクチャは入力から近い順にCNN, highway network, LSTMからなる。実験データにPenn Treebankを、評価指標にPerplexityを採用してモデルを評価したところ、論文が発表された2016年時点でのSOTAの60%程度のパラメタしかないモデルでありながら、これに匹敵する性能を発揮した。

April 4, 2020

論文メモ Deep contextualized word representations

文脈をふまえた単語の分散表現を生成する手法を提案し、教師あり学習に応用することで評価した論文である。文字単位の学習済み双方向LSTM言語モデルへの入力と各層の出力から分散表現をつくる。言語モデルの入力やどの層をどれだけ重視するかは、教師あり学習のときに更新するパラメタのひとつになる。実験では、構文にかかわるタスクであれば入力層に近い層が、意味にかかわるものであれば出力層に近い層が、重視された。モデルは、Embeddings from Language Modelsにちなみ、ELMoと名付けられた。

March 24, 2020

論文メモ The Seven Sins: Security Smells in Infrastructure as Code Scripts

概要

OSSの調査にもとづき、Infrastrucure as Code(IaC)スクリプトに潜む主要なセキュリティ上の不吉な匂い(Security Smells)を7つ列挙し、これらを検出するツールを実装した論文である。論文のねらいは、開発者がIaCスクリプトに不吉な匂いを混ぜないようにすることにある。著者らは、本論文で、ICSE2019のDistinguished Paper Awardを受賞した。

March 20, 2020

Semi-supervised Sequence Learning(2015)

系列データの教師あり学習において、ラベルのないデータを学習した言語モデルやオートエンコーダーの重みでLSTMを初期化することの有用性を実験的に示した。

#言語モデル

March 14, 2020

In Search of an Understandable Consensus Algorithm (2014)

コンセンサスアルゴリズムRaftを提案した論文である。 Raftは、Multi Paxosと同様の実行結果をもたらす。実行するコマンドのログをサーバ間で交換することで、状態を同期し、サーバの一部が落ちてもシステムを継続することができる。

March 9, 2020

SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

SentencePieceは、深層学習向けのトークナイザ・脱トークナイザである。特定の言語を意識した処理がないため、あらゆるテキストに利用できる。本論文では、C++やPythonによる実装と翻訳への適用実験について書かれている。アルゴリズムの解説は、Sennrich et al.やKudo.にゆずられている。これらの論文について2019年7月13日の記事と2019年7月17日の記事で解説している。

#SentencePiece

February 29, 2020

Latent Dirichlet Allocation(2003)

概要

トピックモデルの潜在的ディリクレ配分法(LDA)の原論文である。 LDAは、テキストコーパスのような離散データの確率的生成モデルである。意味のあるデータのまとまりに対する端的な説明を与える情報を見つけることを目的としている。 3つの階層からなる階層ベイズモデルである。データの要素は、各トピックを表すモデルの混合モデルから生成される。トピックもまた混合モデルから確率的に生成される。推論にはベイズ変分法を、パラメタの推定にはEMアルゴリズムをもちいる。

#トピックモデル

February 23, 2020

Unsupervised Pretraining for Sequence to Sequence Learning(2017)

概要

事前学習とファインチューニングによりseq2seqの汎化性能を改善する手法を提案した論文である。 encoderの重みを学習済み言語モデルの重みで初期化する。 decoderについても、encoderと別の言語モデルを用意し、その重みで初期化する。ただし、工夫のないファインチューニングをすると破滅的忘却が生じてしまう。そこで、ファインチューニングでは言語モデルとseq2seqの目的関数の両方を学習につかうことで、過学習をさけ、汎化性能を確保する。

February 16, 2020

Playing Atari with Deep Reinforcement Learning(2013)

概要

深層強化学習をAtari2600の7つのゲームに応用し、うち6つについて先行手法の性能を超えたDeep Q-Networks(DQN)を提案した論文である。ピクセルデータを直接入力として与え、深層学習で方策を学習する手法としては初めて提案された。

#強化学習

February 9, 2020

context2vec: Learning Generic Context Embedding with Bidirectional LSTM (2016)

概要

文書の文脈の分散表現を獲得するニューラルネットワークのアーキテクチャcontext2vecを提案、評価した論文である。アーキテクチャの基本構造はCBOWと同様で、周辺の単語から中心の単語を当てられるようにコーパスをもとにモデルを訓練する。 CBOWとの違いは、文脈の算出方法にある。 CBOWは、ウィンドウ内のベクトルの平均値で文脈の分散表現を求める。一方、context2vecでは、双方向LSTMの出力をもとに算出する。

#Embedding

February 2, 2020