Deep Research Agent 怎麼蓋:多輪搜尋規劃、衝突調和、可驗證結論
自主研究 agent = 四個可控環節:規劃(拆子問題)、檢索迴圈(search→read→反思 gap→再 search)、證據仲裁(≥2 獨立來源、衝突分型處理)、可驗證輸出(句級引用 + 獨立查核 pass)。兩條路線:訓練派用 RL 端到端學會何時搜(Search-R1 +41%),編排派用 orchestrator-worker 分工(Anthropic 內部評測 +90.2%,代價 ~15× token)。