REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS (2023)
July 11, 2025ReAct (Synergizing Reasoning + Acting) は、推論 (Chain of Thought) と行動 (Action) を織り混ぜた出力を促すプロンプトをLLMに与え、推論と行動両方の出力を改善する。 推論は行動の立案に使える情報を提供し、行動はLLM外部の情報を推論に提供することで互いを補完する。
評価に使われた4つの実験データセットは知識集約型と意思決定型のタスクに分けられる。
知識集約型の質問応答タスクHotpotQAを解くには複数のWikipediaの節の推論が求められる。
たとえば質問の例に、“How many rooms are in the hotel that is home to the Cirque de Soleil show Mystere?“がある。
HotpotQAを解くReACTができる行動はentityかentityに類するWikipediaの記事の最初の5文を返すsearch[entity], stringを含むページの次の文を返すlookup[string], タスクに回答するfinish[answer]の3種類である。
公開された実験データによると以下のプロンプトが与えられたようだった。
Solve a question answering task with interleaving Thought, Action, Observation steps. Thought can reason about the current situation, and Action can be three types:
(1) Search[entity], which searches the exact entity on Wikipedia and returns the first paragraph if it exists. If not, it will return some similar entities to search.
(2) Lookup[keyword], which returns the next sentence containing keyword in the current passage.
(3) Finish[answer], which returns the answer and finishes the task.
Here are some examples.