#tool-use

10 篇文章

ai deep-dive 2026年6月4日

Agent 可觀測性：從 OTel Trace 到抓出幻覺、工具誤用與無限迴圈

業界已收斂到用 OpenTelemetry GenAI 語義約定把每個 LLM call / tool call 變成 span；偵測三大故障再分三條線：faithfulness + semantic entropy 抓幻覺、framework 層 symbolic guardrail 擋 tool misuse、max steps + action hash 去重防無限迴圈，最後全部掛上 Final / Trajectory / Single-step 三層評估。

#observability #ai-agent #tool-use #llm #opentelemetry

ai deep-dive 2026年6月4日

別再手工調 prompt：從 GEPA 到 tool description，agent 行為的自動最佳化

自動 prompt 優化（APO）從 APE/OPRO 演進到 GEPA：用語言反思取代稀疏 reward，少 4–35 倍 rollouts 贏過 GRPO 約 6pp。另一邊，tool description 是被忽略的 prompt——小改措辭能讓工具選用率變 10 倍，Anthropic 實測讓 Claude 自我改寫 tool description 勝過人類專家手寫。兩條線正在合流：eval-driven 的自動優化吃掉手工調 prompt。

#prompt-engineering #tool-use #ai-agent #llm #optimization

ai deep-dive 2026年6月4日

幾百個工具怎麼選得準：tool selection 的崩塌曲線與工程解法

工具一多，選擇準確率不是緩降是崩塌：4→51 個工具從 43% 掉到 2%、10→100+ 個從 78% 掉到 13.62%。根治解法是別一次塞全部——Anthropic Tool Search Tool 用 defer loading + 檢索砍 85% token，Opus 4.5 準確率 79.5%→88.1%。description 品質的效益是條件式的：簡單場景沒差，多工具串接場景 correctness 44%→50%。

#tool-use #ai-agent #mcp #llm #context-engineering

ai deep-dive 2026年5月24日

上傳檔案就自動 embedding 是個壞預設：Adaptive / Agentic RAG 與 Agentic Parsing 論文導讀

把『使用者上傳檔案就自動切 chunk、embedding』設為預設行為，等於替 LLM 預先做了一個它本來可以自己做的決定。從 Self-RAG (2310.11511)、Adaptive-RAG (2403.14403) 到 AgenticOCR (2602.24134) 這條學術線索，正在把『要不要 retrieve、要不要 parse、怎麼切 chunk』三層決策權，從 ingestion pipeline 往後推到對話時的 agent。

#rag #agentic-rag #adaptive-rag #tool-use #llm-agent #agentic-parsing #document-parsing

ai deep-dive 2026年5月24日

把 LLM Agent 的 skills / tools / code interpreter 真正組裝起來：一份論文導讀地圖

LLM agent 的難點不是把 function calling、skill、code interpreter、文件工具各自做出來，而是把它們組成一個會選工具、會寫程式、會拆任務、會驗證結果、又不會被 prompt injection 打穿的系統。這篇把代表論文整理成六個工程決策：function calling 可靠度、tool/skill selection、code-as-action、多步 planning、skill 系統、安全與文件生成。

#llm #agents #tool-use #skills #code-interpreter #function-calling #paper-review

ai guide 2026年4月18日

MCP vs CLI vs API：Agent 工具介面的真實分界

MCP 不會退場，但有效範圍比想像中窄。本機開發場景 CLI 和 raw API 幾乎都贏過 MCP；MCP 真正不可替代的，是「跨 agent 共享的本機工具層」這條窄縫。

#mcp #agent #cli #api #claude-code #tool-use

ai project 2026年4月5日

OpenHarness：把 Agent Harness 完整開源的框架

香港大學 HKUDS 開源的 Agent Harness 框架，實作了工具呼叫、技能載入、記憶、權限、多代理協作等完整基礎設施，支援 Anthropic / OpenAI / GitHub Copilot 三種 API 格式。

#agent-harness #open-source #multi-agent #tool-use #mcp

ai guide 2026年4月3日

AI Agent 的 Tool 描述不該是靜態的：從 Claude Code 學到的動態 prompt() 設計

Claude Code 的 45 個 tool 中，每個 prompt() 都會根據用戶類型、feature flags、系統能力動態調整。將這個模式套用到 ReAct Agent，根據 orchestrator 模型能力、locale、可用 tools 三個維度動態生成 tool description，小模型自動補 few-shot，大模型省 token。

#react-agent #tool-use #prompt-engineering #claude-code #few-shot #dynamic-prompt

ai guide 2026年3月28日

OpenClaw 的模型需求與供應商生態

OpenClaw 支援 35+ 模型供應商，最低需求是模型支援 tool use + streaming，內建 auth 輪替和 model failover 機制。

#openclaw #llm #anthropic #openai #gemini #model-failover #tool-use

ai guide 2026年3月22日

MCP（Model Context Protocol）：AI Agent 工具呼叫的標準化協定

每個 AI 工具都有自己的呼叫格式，整合成本高。MCP（Model Context Protocol）是 Anthropic 提出的開放標準，統一 AI Agent 與外部工具、資料源的通訊協定，讓工具可以跨 Agent 重用。

#mcp #model-context-protocol #tool-use #agent #anthropic