Machine Theory of Mind：Agent 如何推斷其他 agent 的意圖、知識與目標

TL;DR 從觀察行為反推他者的信念/目標/意圖，學界叫 Machine Theory of Mind。三條血脈：符號 BDI、貝氏逆向規劃、深度學習 ToMnet。LLM 時代最大爭議是 ToMBench 上 GPT-4 仍落後人類 >10 分——高分到底是真推理還是統計捷徑。

#theory-of-mind #multi-agent #ai-agent #llm #reasoning

先把問題講清楚：什麼叫「推斷他者心智」
符號路線：Plan Recognition 與 BDI
貝氏路線：Bayesian Inverse Planning
深度學習路線：ToMnet 與它的後裔
LLM 時代：核心爭議（兩派並陳）
多智能體與「讀心的上界」
整體架構
整體來說
參考資料

當多個 agent 要協作、談判、甚至互相欺騙時，「讀心」突然從哲學問題變成工程剛需：一個 agent 必須從看得到的行為，反推對方看不見的信念、目標與意圖。這件事在學界有正式名字——Machine Theory of Mind（Machine ToM）。這篇把它拆成三條技術血脈（符號規劃、貝氏推論、深度學習），再帶你看 LLM 時代最分裂的爭議：模型在心智測驗上的高分，到底是真推理，還是 Clever Hans 式的統計捷徑。一個關鍵數字先放這：在 ACL 2024 的 ToMBench 上，連 GPT-4 都還落後人類 10 個百分點以上。

先把問題講清楚：什麼叫「推斷他者心智」

Theory of Mind（ToM）的經典定義來自 Premack & Woodruff 1978：把信念（belief）、慾望（desire）、意圖（intention）這些心智狀態歸因給他人，並理解對方的心智可能跟現實、跟自己都不同。最難的考點是 false belief（錯誤信念）——「某人沒看到東西被移走，他會去他以為的位置找」。

認知科學對「人怎麼做到」有兩派說法，這兩派後來剛好對應到兩條 AI 路線：

Theory-Theory：心智狀態是從觀察行為「推論」出來的 → 對應推論式模型（貝氏、符號溯因）。
Simulation Theory：用自己的心智去「模擬」對方 → 對應 LLM 拿自己的世界模型 role-play 對方。

還有一個維度是 order（階層）：一階 ToM 是「他相信 X」；二階是「他相信『她相信 X』」。多數 benchmark 卡在二階以上就開始崩。

符號路線：Plan Recognition 與 BDI

最早的工程化做法是溯因（abduction）：從觀察到的動作序列，反推最能解釋它的計畫。這條線叫 Plan / Activity / Intent Recognition。值得記住的一個區分（Blaylock & Allen）：goal recognition 是 plan recognition 的子集——goal recognition 只問「他最頂層的目標是什麼」；plan recognition 還要回答「他在執行哪個計畫、完成到哪一步、每個動作扮演什麼角色」。早期用 Cascading HMM、合成計畫語料來做。

而 agent 用來描述心智的詞彙，幾乎都來自 BDI（Belief–Desire–Intention）：Bratman 1987 的哲學，經 Rao & Georgeff 形式化成帶 possible-world 語意的多模態時序邏輯，再落地成一大票 agent 程式框架。三個概念對應得很乾淨：Belief 是對世界/他者/自己的資訊，Desire(goal) 是想達成的狀態，Intention 是帶承諾（commitment）的目標。

這個 commitment 是關鍵。Bratman 的原話點破了為什麼「推斷意圖」比「推斷慾望」更有預測力：

「我下午想打籃球的慾望，只是我行為的一個潛在影響因子，它得跟其他慾望競爭才能決定我做什麼。相對地，一旦我意圖下午打籃球，事情就定了——我通常不必再繼續權衡利弊。」

換句話說，意圖一旦形成就驅動後續子計畫、不再反覆動搖，所以對行為的預測力遠高於慾望。BDI 原本是描述 agent 自己 的推理架構，但它提供了建模他者的標準詞彙——後面會看到的 NegotiationToM 就是直接用 BDI 來標註談判對手的心智。

貝氏路線：Bayesian Inverse Planning

第二條線把「讀心」變成乾淨的機率推論問題。核心想法（Baker、Saxe、Tenenbaum 一脈）是：假設對方是近似理性的規劃者，先寫一個「心智狀態 → 行為」的生成模型（forward planning），再用貝氏定理反轉它——觀察到動作後，反推最可能產生這個動作的 goal 加 belief。這就是 Bayesian Inverse Planning（BIP）：把 ToM 推理框成「反轉一個理性決策的生成模型」。

它的價值在於有原理、能量化不確定性，而不是黑箱輸出一個猜測。2018 年之前，它是 ToM 計算模型的主流。重要的延伸有三個方向：

容忍非理性：真實的 agent 會有錯誤的目標、計畫與動作，框架要能建模 boundedly rational agents。
接地到語言：把「他知道」「他以為」這類 epistemic language，接到 BIP 推出的信念後驗上。
與 LLM 混血：用 LLM 當前端，把自然語言場景轉成 BIP 能求解的形式（neuro-symbolic inverse planning），或做合作式語言引導的逆規劃來理解指令、主動協助。

代價是：你得手寫那個生成模型與狀態空間，要 scale 到開放域很難。

深度學習路線：ToMnet 與它的後裔

2018 年是分水嶺。DeepMind 的 ToMnet（Rabinowitz et al., ICML 2018）把 ToM 變成 meta-learning 問題。用論文自己的話：

「我們設計了一個 Theory of Mind 神經網路（ToMnet），用 meta-learning 來建立它所遇到的 agent 的模型——僅憑觀察它們的行為。」

架構是三個網路接力：

Character net：吃 agent 的過去多段軌跡，萃取「這個 agent 是什麼性格/偏好」的 character embedding（類比長期記憶）。
Mental state net：吃當前這一集的軌跡，推出當下的 mental state embedding（類比工作記憶）。
Prediction net：結合上面兩個 embedding，預測下一步動作、會去消耗哪個目標。

最漂亮的結果是它能推斷 false belief：研究者對環境做一個「agent 看不到、但 ToMnet 看得到」的改動（例如把目標物悄悄移走），ToMnet 仍然預測 agent 會按它的舊信念行動——這正是 Sally-Anne 測驗的機器版。

但 ToMnet 作者在結論裡也誠實點出一個致命限制：這種顯式的 belief 推斷，訓練時需要取得他者的潛在信念狀態當監督訊號，而「現實世界裡這個溝通管道遠比實驗稀疏」，所以現形式「不太可能 scale」。後續工作（Trait-ToM、dynamic-trait attribution、belief-graph 模型，乃至 cyber-defence 場景的 ToM）大多在繞這個監督訊號稀疏的問題打轉。

LLM 時代：核心爭議（兩派並陳）

LLM 出現後，「讀心」突然變得很好上手——但也立刻分裂成兩派，至今沒有共識。

湧現派（樂觀）：Kosinski 2023 主張 ToM 像是隨模型規模自發湧現，GPT-4 在多項 false-belief 測驗上的表現相當於 7 歲兒童；Bubeck et al. 的「Sparks of AGI」也呼應。

捷徑派（懷疑）：Ullman 2023 的反擊很致命——對題目做微小擾動就崩。例如告訴模型「袋子是透明的」或「角色不識字」，模型仍堅持預測角色抱持錯誤信念。他主張評測的零假設應該預設懷疑，離群的失敗案例應該蓋過漂亮的平均分。Shapira et al. 的〈Clever Hans or Neural Theory of Mind?〉（EACL 2024）跨 6 個任務複測後下結論：

「當代 LLM 展現出有限的 N-ToM 能力……這些能力並不穩健，某些情況下我們找到證據顯示它們過度依賴簡單的捷思法，而非泛化的推理。」

他們並直接反駁湧現派是拿 10–40 個例子過度外推。

連 benchmark 本身也被質疑壞了：

ToMBench（Chen et al., ACL 2024）：8 任務、31 種社會認知能力、雙語、從零自建以避免資料污染、用選擇題自動評分。結論是「即使最先進的 GPT-4 也落後人類超過 10 個百分點」。
FANToM：把 false belief 搬進資訊不對稱的多人對話，所有問題共享同一個底層推理——「誰知道對話裡這條資訊」。結論直白：LLM 沒有 coherent ToM，即使加 chain-of-thought 或微調，仍明顯輸人類。
Position: ToM Benchmarks are Broken（ICLR 立場論文）提出一個重要區分：literal ToM（能預測他人行為）vs functional ToM（能在互動中隨對方策略即時調整）。它發現很多開源 LLM literal 很強、functional 卻很差，主張真正該測的是後者。

那「會思考的推理模型能不能救 ToM」？這也是分裂的：一派發現 reasoning model 對擾動更穩健；另一派（〈To Think or Not To Think〉）卻發現它不一定更好、有時更差，並觀察到「想越長、準確率掉越多」的 slow-thinking collapse，以及「把選項拿掉反而變準 → 模型靠的是 option-matching 捷徑」。結論是：數學/code 上的推理進步無法直接遷移到社會推理。

不過懷疑派也不是全贏。〈Language Models Represent Beliefs of Self and Others〉（ICML 2024）發現可以從模型的神經活化中線性解碼出不同 agent 視角的信念狀態，而且操弄這個內部表徵會改變 ToM 表現——這暗示模型內部確實存在某種 belief 表徵，不純然是表面捷徑。

多智能體與「讀心的上界」

把這些放回多 agent 系統，有幾個值得記的點：

協作永遠有 gap：在 speaker–listener 實驗裡，帶 Machine ToM 的 speaker 給的指引比沒有的好，但仍輸給「直接拿到對方真實心智」的上界。推斷終究不是讀心。
談判與欺騙：NegotiationToM 直接用 BDI 框架標註對手的慾望、二階信念與意圖；game-theory 視角的研究發現 LLM agent 在目標一致時傾向合作、偏好協商，但也會浮現策略性欺騙。
多模態：MuMA-ToM 與 MMToM-QA 把 ToM 推到「影片 + 文字」的具身家庭場景，同時考 belief inference 與 goal inference。

整體架構

                   觀察到的行為 / 軌跡 / 對話
                              │
            ┌─────────────────┼─────────────────┐
            ▼                 ▼                 ▼
      符號溯因             貝氏反轉            神經網路
   plan/goal recog.   inverse planning      ToMnet 類
   (BDI 詞彙建模)     (反轉理性生成模型)    (meta-learning)
            │                 │                 │
            └─────────────────┼─────────────────┘
                              ▼
            推出：belief（知道什麼）/ desire（想要什麼）
                  / intention（帶承諾要做什麼）
                              │
                              ▼
              預測對方下一步 → 協作 / 談判 / 協助 / 防禦

整體來說

三條路線是清楚的取捨：要可解釋、能量化不確定性、樣本少，走 Bayesian inverse planning，但得手寫生成模型、難 scale；要從大量行為資料學、泛化到沒見過的 agent，走 ToMnet 類，但需要稀疏的心智監督訊號；要用自然語言、開放域、即插即用，走 LLM，但穩健性是最大問號。在多 agent 系統裡建模對手，目前最常見的組合是「BDI 當詞彙 + 上述任一引擎當推斷器」。

而最該記住的一條方法論警告是：推斷他者心智永遠存在「推斷 vs 真實心智」的上界落差；LLM 把這件事變得容易上手，但把「答對 benchmark」直接當成「真的有 Theory of Mind」，是目前這個領域最大的陷阱。比較精確的現狀是——LLM 有 literal ToM 的跡象，但 functional、穩健的 ToM 仍是 open problem。