Posts

Infinispanの分散キャッシュ

Inifinispanは有償インメモリーデータベースRed Hat Data GridのOSSとして提供されており、OIDCによるSSOの機能を提供するKeyCloakでキャッシュサーバとして利用できる。 Red HatはKeyCloakの開発も支援している。

公式ドキュメントでRedisやmemcachedを置きかえるユースケースを紹介されているように、Infinispanの用途は、RedisやMemcachedと近い。実際、InifinispanはRESPプロトコルを実装している。 Inifinispanは、Javaで実装されており、JavaのクライアントとJSR107のJCache APIで通信できる。たとえば、クライアントは、CacheManagerでハッシュマップ構造のCacheを取得し、エントリを操作できる。

August 23, 2025

Amazon.com Recommendations Item to Item Collaborative Filtering (2003)

IEEE Internet Computingは、創刊20周年を記念し、時の試練を越えた論文にAmazon.com Recommendations Item to Item Collaborative Filteringを選んだ。文献では、古典的な協調フィルタリングを、アイテム数次元\(N\)のベクトルでユーザーを表現し、類似するユーザーが選んだアイテムのうち、ユーザーが未選択のアイテムを推薦対象に選ぶ手法とみなされている。提案されたItem to Item Collaborative Filteringは、アイテム同士の類似度を示す\(N\)x\(N\)次元の行列をオフラインで構築し、\(N\)や全ユーザー数に依存しないオンラインの計算量で、ユーザーが過去に選んだアイテムに類似するアイテムを推薦できる。

#Collaborative Filtering

August 16, 2025

OUTRAGEOUSLY LARGE NEURAL NETWORKS THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER (2017)

パラメタ数を増やせば多くの情報をモデルに学習させられるが、計算量も増える。 OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER (MoE) は、ゲートと数千規模の全結合層からなる層であり、ゲートの後に全結合層を並列に配置する。ゲートは、サンプルごとに疎なベクトルを出力する。各サンプルの推論において、ベクトルの0でない要素に対応する全結合層だけを計算対象に限定し、パラメタ数の増加と計算量の抑制を両立する。

#Mixture-of-Experts

August 1, 2025

Training Language Models to Follow Instructions With Human Feedback (2022)

LLMはウェブページ上の次のトークンを予測できるように訓練される。指示に応じた出力になるようにLLMを訓練していないため、パラメタ数を増やしても、プロンプトに忠実で安全で便利な出力にできるとは限らない。 Training language models to follow instructions with human feedbackは、人間のフィードバックによる強化学習 (RLHF) により、プロンプトに対する望ましい順に順序づけられた出力で報酬モデルを訓練し、報酬モデルとPPOでGPT-3の方策を最適化した。 RLHFで訓練したパラメタ数1.3BのGPT-3 (InsturctGPT) の出力は、175BのGPT-3よりも人にとって望ましかった。

InstructGPTに採用したRLHFも、先行手法のDeep Reinforcement Learning from Human Preferencesのように、報酬関数のモデルを訓練する。なお、先行手法についても過去に記事にした。 InstructGPTのRLHFには、報酬関数のモデルを生成する前に、GPT3をファインチューニングする手順がある。このファインチューニングのための訓練データは、主にOpen AI APIで集めたプロンプトに40名の請負業者が適切な出力を書いて作成された。報酬モデルの学習データを集めるときは、ファインチューニングされたモデルにプロンプトを入力し、プロンプトに対する複数の出力を収集し、業者に良い順に出力を順序づけてもらった。プロンプトと順序つき出力を訓練データとして、スカラ値の報酬を出力する報酬モデルを訓練し、最後に、PPOで報酬モデルの出力に方策モデルを最適化した。

July 24, 2025

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS (2023)

ReAct (Synergizing Reasoning + Acting) は、推論 (Chain of Thought) と行動 (Action) を織り混ぜた出力を促すプロンプトをLLMに与え、推論と行動両方の出力を改善する。推論は行動の立案に使える情報を提供し、行動はLLM外部の情報を推論に提供することで互いを補完する。

July 11, 2025

Denoising Diffusion Probabilistic Models (2020)

Denoising Diffusion Probabilistic Modelsは、高品質な画像の生成することで、デノイジング確率拡散モデル（拡散モデル）の効果を示した。拡散モデルは、観測データにノイズを徐々に加えるマルコフ過程を遡行する。言いかえればノイズから観測データを生成するマルコフ過程である。モデルにノイズを加える過程は拡散過程、遡行する過程は逆拡散過程とよばれる。ノイズが徐々に除かれるデータの各時刻の状態を潜在変数、ノイズを除いたデータを観測変数とすれば、拡散モデルを潜在変数モデルとみなせる。観測変数の尤度を現実的な計算量で求めるために、最尤推定に変分下限を応用する。

#Diffusion Model

June 15, 2025

LoRA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS (2021)

Li et al. (2018)とAghajanyan et al. (2020)は、Large Language Models (LLM) のファインチューニングにおいて、下流タスクに必要なパラメータ数はLLMのパラメタ数よりもはるかに少ないと主張する。 LoRAは、この仮説を支持し、ファインチューニングを避け、LLMの全結合層と線形結合するための2つの小さい行列を導入する。 LLMの重みを\(W_0\in\mathbb{R}^{d\times k}\) とすると、\(W_0+BA\ (B\in\mathbb{R}^{d\times r}, A\in\mathbb{R}^{r\times k}, r \ll\min (d, k))\)が下流タスクに最適な重みに近づくように、ファインチューニングにかわって\(W_0\)を更新せず\(B,\ A\)のみを更新する。 \(r\)が\(d, k\)よりも小さいので、\(W_0\)を更新するファインチューニングよりも学習時間は短い。また、複数の下流タスクを入力に適用する場合、\(W_0x\)を共有できるので、推論に必要な計算も\(W_0\)を更新するファインチューニングより少ない。

June 7, 2025 (Originally posted on November 18, 2023)

Supervised Learning of Universal Sentence Representations From Natural Language Inference Data (2017)

Supervised Learning of Universal Sentence Representations From Natural Language Inference Dataは自然言語推論のデータセットであるStanford Natural Language Inference (SNLI) を使った文の埋め込みベクトルを生成モデルを教師あり学習を提案した。 7種類のネットワークアーキテクチャを12種類のタスクで評価したところ、双方向LSTMと最大値プーリングを採用したアーキテクチャが最も高い性能を発揮した。

#Sentence Embedding

May 30, 2025

Scaling Instruction Finetuned Language Models (2022)

Instruction Finetuningは訓練データにない種類のタスクのゼロショットを改善するファインチューニングの一種で、Finetuned Language Models Are Zero-Shot Learnersで知られるようになった。もとの文献ではInstruction tuningと呼ばれている。 Scaling Instruction-Finetuned Language Modelsは、学習データ、モデルのパラメタの数、chain-of-thoughtのデータを増やすと、instruction tuningで学習したモデルの性能を向上できることを示した。

May 7, 2025

Reading Wikipedia to Answer Open Domain Questions (2017)

Reading Wikipedia to Answer Open Domain Questionsで提案されたDrQAは、ドメインを問わない事実を問う質問に対して、Wikipediaの文書のある文字列区間を解答とみなして出力する。 DrQAは質問に関係する文書を収集するDocument RetrieverとDocument Readerから構成される。 Document Retrieverは、バイグラムのTF-IDFで質問と類似するWikipediaを検索し、上位5位の文書をDocument Readerに渡す。 Document Readerは、Document Retrieverから渡された質問と応答を別の方法で分散表現に変換する。最後に質問と応答の分散表現を比較し、応答の解答と推定した区間を出力する。

April 26, 2025