AIエージェントは、知識を事前学習に依存しがちですが、実際の業務や未知の環境では 「その場で学び、適応する力」 が求められます。

本記事では、NeurIPS 2024 に採択された論文「Mars: Situated Inductive Reasoning in an Open-World Environment」を取り上げ、AIエージェントにおけるメモリ設計の考え方を検討します。

Marsの提案 ― 経験を「ルール」と「スキル」に変換する

論文では、環境Marsを提案し、AIエージェントの手法として、Skill LibraryとInduction from Reflection(IfR)でルール抽出&活用を実施しています。その際、単に経験を記憶するのではなく、「抽象化」して再利用することに注目しています。

ルール(世界モデル):経験から導かれる一般的な因果関係
スキル(成功パターン):ゴール達成に有効だった手順

AIは「経験 → 抽象化 → 応用 → 失敗から修正 → 知識化」という学習サイクルを繰り返し、未知の状況でも柔軟に推論できるようになります。

Marsの学習サイクル

Marsが示すプロセスを例を交えて整理すると、次のようになります。

1. 経験の蓄積(生データ収集)
行動と結果を履歴に保存。
例:「石を掘った → ダイヤが出た」

2. 帰納(一般ルールの発見)
複数の経験から一般ルールを導出
例:「石を掘るとダイヤが得られる」

3. 計画(ゴールを分解して行動順序化)
ゴールを細かい手順に分け、ルールを組み込んで行動順序を作成
例:「木のつるはしを作る」→「木を集める」「石を集める」「作業台を作る」

4. 実行(行動とスキル化)
サブゴールごとにアクションを選択し、成功した手順は「スキル」として保存

5. 失敗 → 反省(失敗から仮説生成)
失敗時に「なぜか」を推論し、新しい仮説ルールを生成
例:「木を集められなかった → 斧が必要かもしれない」

6. 知識更新(スキルライブラリの成長)
成功したスキルも、失敗を修正した新ルールも蓄積し、次回以降に活用。

このサイクルにより、AIは「その場で学び直す」ことが可能になります。

業務用AIエージェントへの応用

Marsの枠組みは、ゲームやロボットだけでなく業務AIにも応用可能だと考えられます。

LLMは事前学習したデータに依存しており、特定の業務知識や暗黙知の理解には限界があります。本論文で提案された「経験から一般的なルールやスキルを抽出する仕組み」を活用すれば、業務有識者の頭の中にしかない暗黙知を形式知化し、再利用可能な知識として蓄積できると考えられます。

カスタマーサポートのチャットボットの例を元に考えてみます。

ルール抽出:対話ログから「暗黙知」を抽出し、FAQにないパターンを知識化
 例:「商品Xは保証対象外」という繰り返し出てくる会話をルールに変換
スキル蓄積:成功した対応事例を「スキル」として再利用
 例:クレーム対応で顧客満足度が高かった手順をベクトル検索で呼び出す
継続的更新:失敗対応も学習に反映し、次は改善された対応を提示

プロンプト例:
あなたはカスタマーサポートの知識管理AIです。
与えられた対話ログから、既存FAQには記載されていないが
顧客対応で繰り返し現れる「暗黙知パターン」を抽出し、知識化してください。

出力は以下の形式で整理してください。

1. 観察された顧客の質問・ニーズ(原文を要約)
2. 背景にある共通ルール(抽象化)
3. 対応に成功した手順(スキル化)
4. 新規FAQ候補(顧客向けに書き換えたもの)

【既存FAQ】 {{faq_data}}

【対話ログ】
{{dialogue_log}}
こうすることで、単なる「過去ログ検索型のチャットボット」から、自律的に成長するアシスタントへ進化できます。

なお、一般的にRAGは、外部知識ベースから情報を検索して回答します。一方Marsは、内部に「世界モデル+スキルライブラリ」を作り上げ、自己拡張的に学習する点が異なります。
RAG:必要な知識を外部から借りてくる。
Mars:経験を抽象化して内部に積み上げる。

おわりに

「Mars: Situated Inductive Reasoning in an Open-World Environment」は、環境との相互作用を通じてルールとスキルを記憶に蓄積するエージェント設計を示しました。
この「ルール=世界モデル、スキル=成功パターン」という枠組みは、業務シナリオにおいても暗黙知を形式知化し、成功知を再利用するメモリ設計として応用可能と考えます。

なお、Marsという手法は、以下の書籍の9章で知りました。評判通り素晴らしい書籍でした。