Skip to content
所有標籤

#ai-agent

49 篇文章
ai deep-dive

Loop Engineering:當 AI 不再需要你打 Prompt

Loop Engineering 是設計「自動 prompt agent 的系統」而非手動 prompt 的工程實踐。Boris Cherny 跑數百個 agent、Addy Osmani 正式命名、Blake Crosley 指出驗證成本才是真正瓶頸——這篇整理一手來源、五大構建塊、適用邊界與批評觀點。

tech deep-dive

Browser MCP 三選一:CDP、Playwright MCP、Puppeteer MCP 比較

@playwright/mcp 用 accessibility tree 取代截圖,token 消耗最低,是 AI agent 做網頁自動化的首選;Puppeteer MCP 截圖導向適合需要視覺回饋的場景;直連 CDP 適合底層工具開發與高層工具未暴露的功能。

tech deep-dive

Chrome DevTools MCP:直連 CDP 的 MCP Server

Chrome DevTools MCP 是把 Chrome DevTools Protocol(CDP)包成 MCP server 的做法,讓 AI agent 可以直接呼叫 40+ CDP Domain,存取 Playwright 和 Puppeteer MCP 未暴露的 Profiler、HeapProfiler、Security 等底層功能,代價是需要自行實作 MCP tool 定義與 auto-wait 邏輯。

tech deep-dive

@playwright/mcp:微軟官方的瀏覽器自動化 MCP Server

@playwright/mcp 預設用 accessibility tree(browser_snapshot)取代截圖,省下 90%+ 的 token 消耗,加上 Playwright 原生 auto-wait,是目前 AI agent 做網頁自動化的最佳起點。

tech deep-dive

@modelcontextprotocol/server-puppeteer:官方 Puppeteer MCP Server

server-puppeteer 是 MCP 官方 monorepo 裡的 Puppeteer 封裝,工具集精簡(7 個工具),以截圖 + evaluate 為核心,適合需要視覺回饋或自訂 JS 執行的場景,但每次截圖的 token 成本比 Playwright MCP 高出數倍。

ai deep-dive

LLM Agent 的技能管理革命:從 Voyager 到 MUSE-Autoskill 的 Skill Lifecycle 全景

MUSE-Autoskill(2026)提出五階段 skill 生命週期框架,自創 skill 在 SkillsBench 達 60.35%(+7.16%),成功生成 skill 的任務上更達 87.94%,超越人工撰寫上限。本文整合六篇 arXiv 論文,梳理 skill evolution 研究全景。

ai deep-dive

調整 agent 之後,怎麼嚴謹比較前後差異:從 golden set 到統計檢定

即使 temperature=0,LLM 輸出實測仍可能抖動 15%。要嚴謹比較 agent 調整前後,得靠凍結 golden set、每題跑 ≥3 次取平均、LLM-as-judge 盲評(pairwise 偏好翻轉率高達 35%)與配對統計檢定,而不是前後各問一遍看感覺。

ai deep-dive

Agent 可觀測性:從 OTel Trace 到抓出幻覺、工具誤用與無限迴圈

業界已收斂到用 OpenTelemetry GenAI 語義約定把每個 LLM call / tool call 變成 span;偵測三大故障再分三條線:faithfulness + semantic entropy 抓幻覺、framework 層 symbolic guardrail 擋 tool misuse、max steps + action hash 去重防無限迴圈,最後全部掛上 Final / Trajectory / Single-step 三層評估。

ai deep-dive

Agent 的資源理性:在 token、工具呼叫、延遲之間做最優決策

資源受限下的 agent 決策是 bounded rationality 的復活:Rational Metareasoning 用 VOC 獎勵省 20–37% token、BATS 證明沒有 budget awareness 加預算也沒用、FrugalGPT cascade 最高省 98% 成本、Speculative Actions 降 20% 延遲。三約束最後收斂成一條 Pareto 曲線,主線是「從人手調旋鈕走向模型自己做資源理性決策」。

ai deep-dive

Agent 安全的同一條裂縫:從 Prompt Injection、信任邊界到 Multi-Agent 蠕蟲

三個聽起來不同的 agent 安全問題——tool output 注入、信任邊界、惡意 agent——根是同一個:LLM 把指令與資料攤平成同一條 token 串流,架構上無法區分。理解這條主線,就能看懂從 EchoLeak(CVE-2025-32711,zero-click)到 Morris II AI 蠕蟲的所有攻擊,以及為什麼「把模型調乖」沒用、只有架構約束(六大設計模式、CaMeL)有用。

ai deep-dive

Agent 怎麼決定「要不要查、查什麼、怎麼合」:Agentic RAG 的三個決策層

傳統 RAG 是固定管線「先查再答」;Agentic RAG 把檢索拆成三層決策:何時檢索(FLARE 用 token 機率、Adaptive-RAG 用複雜度分類器)、檢索什麼(HyDE / RAG-Fusion / 分解 / Step-back)、如何整合(RRF k=60 → cross-encoder rerank → 壓縮,Anthropic 實測失敗率 −67%)。關鍵反直覺:不必要的檢索會傷品質,「決定不查」是一級能力。

ai deep-dive

別再手工調 prompt:從 GEPA 到 tool description,agent 行為的自動最佳化

自動 prompt 優化(APO)從 APE/OPRO 演進到 GEPA:用語言反思取代稀疏 reward,少 4–35 倍 rollouts 贏過 GRPO 約 6pp。另一邊,tool description 是被忽略的 prompt——小改措辭能讓工具選用率變 10 倍,Anthropic 實測讓 Claude 自我改寫 tool description 勝過人類專家手寫。兩條線正在合流:eval-driven 的自動優化吃掉手工調 prompt。

ai deep-dive

Deep Research Agent 怎麼蓋:多輪搜尋規劃、衝突調和、可驗證結論

自主研究 agent = 四個可控環節:規劃(拆子問題)、檢索迴圈(search→read→反思 gap→再 search)、證據仲裁(≥2 獨立來源、衝突分型處理)、可驗證輸出(句級引用 + 獨立查核 pass)。兩條路線:訓練派用 RL 端到端學會何時搜(Search-R1 +41%),編排派用 orchestrator-worker 分工(Anthropic 內部評測 +90.2%,代價 ~15× token)。

ai deep-dive

Machine Theory of Mind:Agent 如何推斷其他 agent 的意圖、知識與目標

從觀察行為反推他者的信念/目標/意圖,學界叫 Machine Theory of Mind。三條血脈:符號 BDI、貝氏逆向規劃、深度學習 ToMnet。LLM 時代最大爭議是 ToMBench 上 GPT-4 仍落後人類 >10 分——高分到底是真推理還是統計捷徑。

ai deep-dive

Multi-Agent 的錯誤傳播與恢復:向分散式系統借三十年的武器

每步 99% 準確率、跑 100 步,無錯完成率只剩 36%——錯誤複利是結構問題,不是 prompt 能調掉的。分散式系統的 supervisor tree、bulkhead、circuit breaker、saga、durable execution 幾乎可一對一搬進 agent 編排;但 LLM 多了一種傳統系統沒有的故障——不會 crash 的語意錯誤,得靠 Inspector agent(recover 96.4%)與冗餘投票(MAKER 百萬步零錯誤)補上。

ai deep-dive

幾百個工具怎麼選得準:tool selection 的崩塌曲線與工程解法

工具一多,選擇準確率不是緩降是崩塌:4→51 個工具從 43% 掉到 2%、10→100+ 個從 78% 掉到 13.62%。根治解法是別一次塞全部——Anthropic Tool Search Tool 用 defer loading + 檢索砍 85% token,Opus 4.5 準確率 79.5%→88.1%。description 品質的效益是條件式的:簡單場景沒差,多工具串接場景 correctness 44%→50%。

tech debug

LLM agent 的 tool description 決定它怎麼選 tool:三個踩坑修法

把 tool description 從軟建議改成硬規則(白名單 + 後果說明),LLM 亂選 tool 的問題消失了;另外加 skip_signal=True 修掉 vector store 雙重 indexing。

ai

用 AI Agent 操作影片生成工具:HyperFrames、HeyGen、Runway 整合指南

AI agent 可透過 Skills、MCP Connector、直接 API 三種方式操作影片生成工具,選對整合方式比選對工具更重要。

ai

OpenAI 公開 Codex 安全部署策略:沙箱、自動審批與企業治理框架

OpenAI 在 2026 年 5 月公開 Codex 內部部署實踐:沙箱劃技術邊界、審批決定何時停下、Auto-review 用子代理代替人類審批、Managed configuration 由企業管理員強制下發。核心理念是:低風險動作零摩擦,高風險動作必經審查。

ai

Claude、Codex、Gemini 都進瀏覽器了:三家 AI Agent 在 Chrome 的路線比較

Anthropic 做擴充、OpenAI 蓋自己的瀏覽器、Google 直接焊進 Chrome——三家走的是三條完全不同的路線。整理現況、差異與選擇指南。

ai

自製 auto-dev agent 的 15 個 walls:從 Stripe Minions 學到的具體實作

Stripe Minions 講『The walls matter more than the model』,但矽谷四家 case study 沒講具體要怎麼蓋這些 walls。這篇把 daodao auto-dev agent 實際落地的 15 個 walls 拆給你看:每個 wall 防什麼、檔案放哪、tradeoff 在哪。Tier 1 必上、Tier 2 強化、Tier 3 嚴肅治理。

ai

什麼是 auto-dev agent?daodao 自動化開發系統的入門解說

PM 在 Notion 勾選一張任務卡 → 系統自己同步成 GitHub issue → 寫成 plan → 寫成 code → 開 PR 給人類 review。這篇講這套系統做什麼、不做什麼、為什麼現在可行,給沒在寫 code 的人看。

ai

手把手建一條 Notion → PR auto-dev agent:daodao pipeline 的可複製版本

從零建一條 Notion 任務 → GitHub issue → spec PR → code PR 的 auto-dev agent。用 daodao 案例為範本,講清楚每一步要做什麼、要驗證什麼、踩到問題怎麼處理。Notion DB schema → bin/ scaffold → 兩條 Claude Code routine → cloud env vars → staging 測試。

ai

從 Plan 到 PR:daodao 的 auto-dev agent 實戰

用 5 輪 consensus 寫 plan、再用 team mode 5 worker 並行做完 12 個 task;中間踩了不少坑,記下來給未來的自己跟同樣在嘗試的人看。

ai deep-dive

goose:開源、跨平台、不鎖 LLM 的本地 AI Agent

goose 是由 Linux Foundation 旗下 AAIF 維護的開源 AI Agent,支援 15+ LLM 供應商、70+ MCP 擴充,用 Rust 打造桌面 App + CLI + API,定位是不鎖廠商、可自架的 Claude Code 替代方案。

tech project

DeerFlow:字節跳動開源的超級代理框架,把 Agent 做成可長跑的研究系統

DeerFlow 是字節跳動開源的 Super Agent Harness,基於 Python 3.12 + LangGraph,透過沙箱、長期記憶、子代理、技能與訊息閘道協調長時任務。2026 年 2 月登上 GitHub 趨勢榜第一,目前超過 63,000 星,支援 Telegram/Slack/飛書等 IM、Claude Code 整合與多種搜尋後端。

ai guide

一本由 AI 自己寫的書,教你怎麼跟 AI 一起寫軟體

Encyclopedia of Agentic Coding Patterns 收錄 190 個 pattern,幫你在 AI 代寫程式的時代做出正確的軟體決策——而這本書本身就是由 AI agent 自主撰寫和維護的。

ai guide

GitHub Copilot Coding Agent:把 Issue 丟給 AI,讓它自己開 PR

GitHub Copilot Coding Agent 讓你把 Issue 指派給 Copilot,它在雲端沙箱裡自動開 branch、寫程式、跑 CI、開 PR。成功關鍵是設好 AGENTS.md,沒設定的話 agent 容易跑偏。適合定義清楚的中型任務,需 Pro+(每月 1,500 premium requests)或 Enterprise 方案。

product project

quidproquo 部落格改進完整規劃:從內容、技術、RAG 設計到 Harness 基礎建設

用自己寫的 30+ 篇 RAG/Agent 文章交叉檢視部落格現狀,整理出橫跨內容品質、網站技術、RAG 設計修正、Harness 基礎建設、AI Agent 應用的完整改進清單,按優先級排列、不分階段。

ai guide

Autoreason:讓 LLM 自我修正時知道何時該停手

Autoreason 用競爭式多版本評估(A/B/AB + 盲測 Borda count)取代傳統的「批評→改寫」迴圈,解決 LLM 自我修正中的提示偏差、範疇蔓延和缺乏克制三大問題。

ai guide

Claude Managed Agents:把 agent 外殼和沙箱都交給 Anthropic

Claude Managed Agents 是 Anthropic 2026/04/08 推出的 beta 服務,提供 agent harness 加雲端容器沙箱,按 token 加 $0.08/session-hour 計費,適合長時間非同步任務,不想自己寫 agent loop 和跑沙箱的人值得看。

ai guide

Agent Skills:讓 AI 代理像資深工程師一樣工作的技能框架

Agent Skills 是 Addy Osmani 開源的 19 個生產級工程技能,透過 /spec → /plan → /build → /test → /review → /ship 的指令驅動 AI 代理遵循資深工程師的開發紀律,而不是走捷徑。

ai guide

Hermes Agent:Nous Research 的自我改進 AI 代理

Hermes Agent 是 Nous Research 開源的自我改進 AI 代理,具備持久記憶、技能學習、40+ 工具、多平台閘道,支援 200+ 模型供應商,是 OpenClaw 的正式繼承者。

ai guide AI Agent 實戰

從 Stripe 到 Meta:矽谷一線公司如何用 AI Agent 取代鍵盤

矽谷一線公司各自獨立打造內部 AI coding agent,從 Slack 訊息到 merged PR 全程自動化。深入拆解 Stripe、Ramp、Coinbase、Spotify 四家的架構,再擴展到 Google、Meta、Amazon、Uber、Goldman Sachs、Walmart 等十多家公司的做法與指標。

tech guide

AI Agent 的全域 Skills 要放哪裡?.claude、Codex Skills、AGENTS.md 的分工

Skill 路徑通常是 runtime-specific,跨 agent 真正穩的是 AGENTS.md;個人共用能力放各自 agent 支援的全域目錄,專案 workflow 放 repo 內。

ai guide

Ticketing 已死,Review 才是新的 Planning

當 AI agent 能在幾分鐘內把 intent 變成 PR,軟體工程的瓶頸就從「規劃該做什麼」翻轉成「評估做出來的東西對不對」。Ticketing 時代的產物(sprint、story point、backlog grooming)正在壓縮歸零,取而代之的核心實踐是 review。

ai guide AI Agent 實戰

Anthropic 的 Harness Design:讓 AI Agent 像工程師一樣工作

同一個模型在不同的 harness 設計下會產生截然不同的結果。Anthropic 用雙 Agent 架構、跨 session 狀態檔、GAN 式 generator-evaluator 迴圈,讓 Claude 能自主完成數小時的軟體開發任務。

ai guide AI Agent 實戰

從 Prompt 到 Harness:AI 工程的三次演化

AI 工程經歷三個階段:Prompt Engineering(寫好指令)→ Context Engineering(餵對資訊)→ Harness Engineering(設計整個工作環境)。每一次演化不是取代前者,而是在更高的抽象層級上操作。

ai guide

Phil Schmid:為什麼 Agent Harness 是 2026 年最重要的事

模型是 CPU,harness 是作業系統,agent 是應用程式。模型能力再強,沒有好的 harness 就只是 demo。Phil Schmid 認為 harness 是 2026 年 AI 工程最關鍵的基礎設施。

tech guide

AI Agent 繞過 Cloudflare 反爬蟲完整指南:從踩坑到自建 MCP Server

標準 Playwright 無法通過 Cloudflare 驗證。playwright-extra + stealth 和 nodriver 都能繞過,最終包成 MCP server 讓 AI agent 自動使用。

Claude Code Global Skills 新 Session 找不到?釐清 Skill Discovery 機制與排查方法

Global skills 放在 ~/.claude/skills/ 但新 session 或 Desktop App 看不到?問題通常不是檔案不存在,而是 skill 描述沒被載入 context。本文釐清 CLI vs Desktop App 的差異、settings.json 的角色,以及最穩定的解法。

一個人的全端團隊:從 OpenSpec 到自動部署的 AI 驅動開發流程

用 OpenSpec 把需求拆成工程任務,Claude Code 實作,hooks 自動格式化和保護,commit 前本地 review,PR 上三個 AI reviewer 平行審查,merge 後自動部署。整套流程讓一個人能維護六個子專案的品質。

Claude Code Hooks 完整指南:用事件驅動控制 AI 的每一步

Hook 是 Claude Code 的事件系統。在 AI 執行工具前後、送出 prompt 時、結束任務時自動觸發 shell command、HTTP 請求或 LLM 判斷。用來擋住危險操作、自動審核、注入上下文、記錄 audit log。

Claude Code Skill 完整指南:把重複的工作流程變成一句指令

Skill 是寫給 AI 看的 SOP。一個 markdown 檔案定義步驟,Claude 照著執行。不用寫程式,不用學框架,只要把「有經驗的人會怎麼做」寫成步驟就好。

Claude Code 的三層品質防線:Hook、Skill、指令檔

Hook 是自動化安全網(擋住壞 commit),Skill 是互動式工作流程(跑檢查 + 自動修),指令檔(CLAUDE.md / AGENTS.md)是行為指引。三層各自獨立,組合起來讓 AI agent 在 commit 前自動完成 lint、typecheck、build 檢查。

ai guide AI Agent 實戰

Context Engineering:為什麼你的 AI Agent 問題出在資訊,不在模型

Context Engineering 是 2025 年取代 Prompt Engineering 的核心概念:重點不再是「怎麼問」,而是「給什麼資訊」。把對的資訊在對的時機送進 context window,比換更強的模型更有效。這篇整理了定義、四大策略、實作技巧和常見失敗模式。

tech guide

把爬蟲腳本做成 MCP Server,讓 Claude 直接用

用 FastMCP 把本地 Python 腳本包成 MCP Server,讓 Claude Code 可以直接呼叫,不再需要手動跑 pipeline。

ai guide

AI Agent 的三個核心支柱:Context、Cognition、Action

AI Agent 不是黑盒子——它由三層構成:知道什麼(Context)、怎麼想(Cognition)、能做什麼(Action)。搞清楚這三層,才能理解 agent 為什麼有時聰明、有時失控,以及怎麼設計一個真正好用的 agent 系統。

tech guide

Ghostty 與 cmux:現代終端機的選擇指南

Ghostty 是快速、原生的通用終端機;cmux 是基於 Ghostty、專為 AI coding agents 設計的終端機。不是競品,是不同層級的工具。