#ai-agent

49 篇文章

ai deep-dive 2026年6月20日

Loop Engineering：當 AI 不再需要你打 Prompt

Loop Engineering 是設計「自動 prompt agent 的系統」而非手動 prompt 的工程實踐。Boris Cherny 跑數百個 agent、Addy Osmani 正式命名、Blake Crosley 指出驗證成本才是真正瓶頸——這篇整理一手來源、五大構建塊、適用邊界與批評觀點。

#loop-engineering #ai-agent #claude-code #prompt-engineering #harness-engineering #agentic-coding

tech deep-dive 2026年6月20日

Browser MCP 三選一：CDP、Playwright MCP、Puppeteer MCP 比較

@playwright/mcp 用 accessibility tree 取代截圖，token 消耗最低，是 AI agent 做網頁自動化的首選；Puppeteer MCP 截圖導向適合需要視覺回饋的場景；直連 CDP 適合底層工具開發與高層工具未暴露的功能。

#mcp #browser-automation #playwright #puppeteer #cdp #ai-agent #developer-tools

tech deep-dive 2026年6月20日

Chrome DevTools MCP：直連 CDP 的 MCP Server

Chrome DevTools MCP 是把 Chrome DevTools Protocol（CDP）包成 MCP server 的做法，讓 AI agent 可以直接呼叫 40+ CDP Domain，存取 Playwright 和 Puppeteer MCP 未暴露的 Profiler、HeapProfiler、Security 等底層功能，代價是需要自行實作 MCP tool 定義與 auto-wait 邏輯。

#chrome #cdp #mcp #browser-automation #debugging #devtools #ai-agent

tech deep-dive 2026年6月20日

@playwright/mcp：微軟官方的瀏覽器自動化 MCP Server

@playwright/mcp 預設用 accessibility tree（browser_snapshot）取代截圖，省下 90%+ 的 token 消耗，加上 Playwright 原生 auto-wait，是目前 AI agent 做網頁自動化的最佳起點。

#playwright #mcp #browser-automation #ai-agent #e2e-testing #developer-tools

tech deep-dive 2026年6月20日

@modelcontextprotocol/server-puppeteer：官方 Puppeteer MCP Server

server-puppeteer 是 MCP 官方 monorepo 裡的 Puppeteer 封裝，工具集精簡（7 個工具），以截圖 + evaluate 為核心，適合需要視覺回饋或自訂 JS 執行的場景，但每次截圖的 token 成本比 Playwright MCP 高出數倍。

#puppeteer #mcp #browser-automation #ai-agent #developer-tools #chrome

ai deep-dive 2026年6月6日

LLM Agent 的技能管理革命：從 Voyager 到 MUSE-Autoskill 的 Skill Lifecycle 全景

MUSE-Autoskill（2026）提出五階段 skill 生命週期框架，自創 skill 在 SkillsBench 達 60.35%（+7.16%），成功生成 skill 的任務上更達 87.94%，超越人工撰寫上限。本文整合六篇 arXiv 論文，梳理 skill evolution 研究全景。

#agent-skills #ai-agent #llm #self-refinement #memory #arxiv #paper-review

ai deep-dive 2026年6月4日

調整 agent 之後，怎麼嚴謹比較前後差異：從 golden set 到統計檢定

即使 temperature=0，LLM 輸出實測仍可能抖動 15%。要嚴謹比較 agent 調整前後，得靠凍結 golden set、每題跑 ≥3 次取平均、LLM-as-judge 盲評（pairwise 偏好翻轉率高達 35%）與配對統計檢定，而不是前後各問一遍看感覺。

#evaluation #rag #llm-judge #ab-testing #ai-agent #llm

ai deep-dive 2026年6月4日

Agent 可觀測性：從 OTel Trace 到抓出幻覺、工具誤用與無限迴圈

業界已收斂到用 OpenTelemetry GenAI 語義約定把每個 LLM call / tool call 變成 span；偵測三大故障再分三條線：faithfulness + semantic entropy 抓幻覺、framework 層 symbolic guardrail 擋 tool misuse、max steps + action hash 去重防無限迴圈，最後全部掛上 Final / Trajectory / Single-step 三層評估。

#observability #ai-agent #tool-use #llm #opentelemetry

ai deep-dive 2026年6月4日

Agent 的資源理性：在 token、工具呼叫、延遲之間做最優決策

資源受限下的 agent 決策是 bounded rationality 的復活：Rational Metareasoning 用 VOC 獎勵省 20–37% token、BATS 證明沒有 budget awareness 加預算也沒用、FrugalGPT cascade 最高省 98% 成本、Speculative Actions 降 20% 延遲。三約束最後收斂成一條 Pareto 曲線，主線是「從人手調旋鈕走向模型自己做資源理性決策」。

#ai-agent #reasoning #test-time-compute #llm #cost-optimization

ai deep-dive 2026年6月4日

Agent 安全的同一條裂縫：從 Prompt Injection、信任邊界到 Multi-Agent 蠕蟲

三個聽起來不同的 agent 安全問題——tool output 注入、信任邊界、惡意 agent——根是同一個：LLM 把指令與資料攤平成同一條 token 串流，架構上無法區分。理解這條主線，就能看懂從 EchoLeak（CVE-2025-32711，zero-click）到 Morris II AI 蠕蟲的所有攻擊，以及為什麼「把模型調乖」沒用、只有架構約束（六大設計模式、CaMeL）有用。

#security #ai-agent #prompt-injection #multi-agent #llm

ai deep-dive 2026年6月4日

Agent 怎麼決定「要不要查、查什麼、怎麼合」：Agentic RAG 的三個決策層

傳統 RAG 是固定管線「先查再答」；Agentic RAG 把檢索拆成三層決策：何時檢索（FLARE 用 token 機率、Adaptive-RAG 用複雜度分類器）、檢索什麼（HyDE / RAG-Fusion / 分解 / Step-back）、如何整合（RRF k=60 → cross-encoder rerank → 壓縮，Anthropic 實測失敗率 −67%）。關鍵反直覺：不必要的檢索會傷品質，「決定不查」是一級能力。

#rag #agentic-rag #retrieval #ai-agent #llm

ai deep-dive 2026年6月4日

別再手工調 prompt：從 GEPA 到 tool description，agent 行為的自動最佳化

自動 prompt 優化（APO）從 APE/OPRO 演進到 GEPA：用語言反思取代稀疏 reward，少 4–35 倍 rollouts 贏過 GRPO 約 6pp。另一邊，tool description 是被忽略的 prompt——小改措辭能讓工具選用率變 10 倍，Anthropic 實測讓 Claude 自我改寫 tool description 勝過人類專家手寫。兩條線正在合流：eval-driven 的自動優化吃掉手工調 prompt。

#prompt-engineering #tool-use #ai-agent #llm #optimization

ai deep-dive 2026年6月4日

Deep Research Agent 怎麼蓋：多輪搜尋規劃、衝突調和、可驗證結論

自主研究 agent = 四個可控環節：規劃（拆子問題）、檢索迴圈（search→read→反思 gap→再 search）、證據仲裁（≥2 獨立來源、衝突分型處理）、可驗證輸出（句級引用 + 獨立查核 pass）。兩條路線：訓練派用 RL 端到端學會何時搜（Search-R1 +41%），編排派用 orchestrator-worker 分工（Anthropic 內部評測 +90.2%，代價 ~15× token）。

#deep-research #ai-agent #multi-agent #retrieval #llm

ai deep-dive 2026年6月4日

Machine Theory of Mind：Agent 如何推斷其他 agent 的意圖、知識與目標

從觀察行為反推他者的信念/目標/意圖，學界叫 Machine Theory of Mind。三條血脈：符號 BDI、貝氏逆向規劃、深度學習 ToMnet。LLM 時代最大爭議是 ToMBench 上 GPT-4 仍落後人類 >10 分——高分到底是真推理還是統計捷徑。

#theory-of-mind #multi-agent #ai-agent #llm #reasoning

ai deep-dive 2026年6月4日

Multi-Agent 的錯誤傳播與恢復：向分散式系統借三十年的武器

每步 99% 準確率、跑 100 步，無錯完成率只剩 36%——錯誤複利是結構問題，不是 prompt 能調掉的。分散式系統的 supervisor tree、bulkhead、circuit breaker、saga、durable execution 幾乎可一對一搬進 agent 編排；但 LLM 多了一種傳統系統沒有的故障——不會 crash 的語意錯誤，得靠 Inspector agent（recover 96.4%）與冗餘投票（MAKER 百萬步零錯誤）補上。

#multi-agent #ai-agent #fault-tolerance #orchestration #llm

ai deep-dive 2026年6月4日

幾百個工具怎麼選得準：tool selection 的崩塌曲線與工程解法

工具一多，選擇準確率不是緩降是崩塌：4→51 個工具從 43% 掉到 2%、10→100+ 個從 78% 掉到 13.62%。根治解法是別一次塞全部——Anthropic Tool Search Tool 用 defer loading + 檢索砍 85% token，Opus 4.5 準確率 79.5%→88.1%。description 品質的效益是條件式的：簡單場景沒差，多工具串接場景 correctness 44%→50%。

#tool-use #ai-agent #mcp #llm #context-engineering

tech debug 2026年5月18日

LLM agent 的 tool description 決定它怎麼選 tool：三個踩坑修法

把 tool description 從軟建議改成硬規則（白名單 + 後果說明），LLM 亂選 tool 的問題消失了；另外加 skip_signal=True 修掉 vector store 雙重 indexing。

#ai-agent #rag #llm #prompt-engineering #django #python

ai 2026年5月10日

用 AI Agent 操作影片生成工具：HyperFrames、HeyGen、Runway 整合指南

AI agent 可透過 Skills、MCP Connector、直接 API 三種方式操作影片生成工具，選對整合方式比選對工具更重要。

#ai-agent #video-generation #hyperframes #heygen #mcp #claude-code #cursor

ai 2026年5月10日

OpenAI 公開 Codex 安全部署策略：沙箱、自動審批與企業治理框架

OpenAI 在 2026 年 5 月公開 Codex 內部部署實踐：沙箱劃技術邊界、審批決定何時停下、Auto-review 用子代理代替人類審批、Managed configuration 由企業管理員強制下發。核心理念是：低風險動作零摩擦，高風險動作必經審查。

#openai #codex #ai-agent #security #sandbox #enterprise

ai 2026年5月9日

Claude、Codex、Gemini 都進瀏覽器了：三家 AI Agent 在 Chrome 的路線比較

Anthropic 做擴充、OpenAI 蓋自己的瀏覽器、Google 直接焊進 Chrome——三家走的是三條完全不同的路線。整理現況、差異與選擇指南。

#ai-agent #chrome-extension #claude #codex #chatgpt-atlas #gemini #browser-agent

ai 2026年5月9日

自製 auto-dev agent 的 15 個 walls：從 Stripe Minions 學到的具體實作

Stripe Minions 講『The walls matter more than the model』，但矽谷四家 case study 沒講具體要怎麼蓋這些 walls。這篇把 daodao auto-dev agent 實際落地的 15 個 walls 拆給你看：每個 wall 防什麼、檔案放哪、tradeoff 在哪。Tier 1 必上、Tier 2 強化、Tier 3 嚴肅治理。

#ai-agent #claude-code #guardrails #allowlist #verification-loop #token-budget #test-first #defense-in-depth #pre-commit #sub-agent-council

ai 2026年5月9日

什麼是 auto-dev agent？daodao 自動化開發系統的入門解說

PM 在 Notion 勾選一張任務卡 → 系統自己同步成 GitHub issue → 寫成 plan → 寫成 code → 開 PR 給人類 review。這篇講這套系統做什麼、不做什麼、為什麼現在可行，給沒在寫 code 的人看。

#ai-agent #auto-dev-agent #product #automation-overview #non-engineer #notion #github #pipeline

ai 2026年5月9日

手把手建一條 Notion → PR auto-dev agent：daodao pipeline 的可複製版本

從零建一條 Notion 任務 → GitHub issue → spec PR → code PR 的 auto-dev agent。用 daodao 案例為範本，講清楚每一步要做什麼、要驗證什麼、踩到問題怎麼處理。Notion DB schema → bin/ scaffold → 兩條 Claude Code routine → cloud env vars → staging 測試。

#ai-agent #claude-code #tutorial #notion-sync #openspec #pipeline-automation #auto-dev-agent #routine #cloud-environment #github-automation

ai 2026年5月9日

從 Plan 到 PR：daodao 的 auto-dev agent 實戰

用 5 輪 consensus 寫 plan、再用 team mode 5 worker 並行做完 12 個 task；中間踩了不少坑，記下來給未來的自己跟同樣在嘗試的人看。

#ai-agent #claude-code #multi-agent #consensus-planning #auto-dev-agent #notion-sync #openspec #pipeline-automation #internal-coding-agent #defense-in-depth

ai deep-dive 2026年5月2日

goose：開源、跨平台、不鎖 LLM 的本地 AI Agent

goose 是由 Linux Foundation 旗下 AAIF 維護的開源 AI Agent，支援 15+ LLM 供應商、70+ MCP 擴充，用 Rust 打造桌面 App + CLI + API，定位是不鎖廠商、可自架的 Claude Code 替代方案。

#goose #ai-agent #open-source #mcp #rust #linux-foundation #aaif #claude-code #cli #desktop-app

tech project 2026年4月21日

DeerFlow：字節跳動開源的超級代理框架，把 Agent 做成可長跑的研究系統

DeerFlow 是字節跳動開源的 Super Agent Harness，基於 Python 3.12 + LangGraph，透過沙箱、長期記憶、子代理、技能與訊息閘道協調長時任務。2026 年 2 月登上 GitHub 趨勢榜第一，目前超過 63,000 星，支援 Telegram/Slack/飛書等 IM、Claude Code 整合與多種搜尋後端。

#deer-flow #bytedance #agent #langgraph #langchain #ai-agent #open-source #harness

ai guide 2026年4月18日

一本由 AI 自己寫的書，教你怎麼跟 AI 一起寫軟體

Encyclopedia of Agentic Coding Patterns 收錄 190 個 pattern，幫你在 AI 代寫程式的時代做出正確的軟體決策——而這本書本身就是由 AI agent 自主撰寫和維護的。

#agentic-coding #design-patterns #llm #ai-agent #software-engineering #claude-code

ai guide 2026年4月18日

GitHub Copilot Coding Agent：把 Issue 丟給 AI，讓它自己開 PR

GitHub Copilot Coding Agent 讓你把 Issue 指派給 Copilot，它在雲端沙箱裡自動開 branch、寫程式、跑 CI、開 PR。成功關鍵是設好 AGENTS.md，沒設定的話 agent 容易跑偏。適合定義清楚的中型任務，需 Pro+（每月 1,500 premium requests）或 Enterprise 方案。

#github #copilot #coding-agent #ai-agent #github-actions #sandbox #pr-automation

product project 2026年4月18日

quidproquo 部落格改進完整規劃：從內容、技術、RAG 設計到 Harness 基礎建設

用自己寫的 30+ 篇 RAG/Agent 文章交叉檢視部落格現狀，整理出橫跨內容品質、網站技術、RAG 設計修正、Harness 基礎建設、AI Agent 應用的完整改進清單，按優先級排列、不分階段。

#quidproquo #rag #ai-agent #harness-engineering #context-engineering #blog #product-design

ai guide 2026年4月17日

Autoreason：讓 LLM 自我修正時知道何時該停手

Autoreason 用競爭式多版本評估（A/B/AB + 盲測 Borda count）取代傳統的「批評→改寫」迴圈，解決 LLM 自我修正中的提示偏差、範疇蔓延和缺乏克制三大問題。

#autoreason #nous-research #self-refinement #llm #borda-count #iterative-reasoning #ai-agent

ai guide 2026年4月12日

Claude Managed Agents：把 agent 外殼和沙箱都交給 Anthropic

Claude Managed Agents 是 Anthropic 2026/04/08 推出的 beta 服務，提供 agent harness 加雲端容器沙箱，按 token 加 $0.08/session-hour 計費，適合長時間非同步任務，不想自己寫 agent loop 和跑沙箱的人值得看。

#claude #managed-agents #anthropic #ai-agent #sandbox #serverless #beta

ai guide 2026年4月10日

Agent Skills：讓 AI 代理像資深工程師一樣工作的技能框架

Agent Skills 是 Addy Osmani 開源的 19 個生產級工程技能，透過 /spec → /plan → /build → /test → /review → /ship 的指令驅動 AI 代理遵循資深工程師的開發紀律，而不是走捷徑。

#agent-skills #ai-agent #harness-engineering #claude-code #cursor #gemini-cli #development-workflow

ai guide 2026年4月5日

Hermes Agent：Nous Research 的自我改進 AI 代理

Hermes Agent 是 Nous Research 開源的自我改進 AI 代理，具備持久記憶、技能學習、40+ 工具、多平台閘道，支援 200+ 模型供應商，是 OpenClaw 的正式繼承者。

#hermes-agent #nous-research #ai-agent #self-improving #gateway #multi-platform #openclaw

ai guide AI Agent 實戰 2026年4月4日

從 Stripe 到 Meta：矽谷一線公司如何用 AI Agent 取代鍵盤

矽谷一線公司各自獨立打造內部 AI coding agent，從 Slack 訊息到 merged PR 全程自動化。深入拆解 Stripe、Ramp、Coinbase、Spotify 四家的架構，再擴展到 Google、Meta、Amazon、Uber、Goldman Sachs、Walmart 等十多家公司的做法與指標。

#ai-agent #coding-agents #stripe-minions #agentic-coding #developer-tools #automation #meta #google #uber #amazon

tech guide 2026年4月2日

AI Agent 的全域 Skills 要放哪裡？.claude、Codex Skills、AGENTS.md 的分工

Skill 路徑通常是 runtime-specific，跨 agent 真正穩的是 AGENTS.md；個人共用能力放各自 agent 支援的全域目錄，專案 workflow 放 repo 內。

#ai-agent #skills #claude-code #codex #agents-md #developer-tools

ai guide 2026年3月30日

Ticketing 已死，Review 才是新的 Planning

當 AI agent 能在幾分鐘內把 intent 變成 PR，軟體工程的瓶頸就從「規劃該做什麼」翻轉成「評估做出來的東西對不對」。Ticketing 時代的產物（sprint、story point、backlog grooming）正在壓縮歸零，取而代之的核心實踐是 review。

#code-review #software-engineering #ai-agent #adr #developer-workflow #ticketing

ai guide AI Agent 實戰 2026年3月28日

Anthropic 的 Harness Design：讓 AI Agent 像工程師一樣工作

同一個模型在不同的 harness 設計下會產生截然不同的結果。Anthropic 用雙 Agent 架構、跨 session 狀態檔、GAN 式 generator-evaluator 迴圈，讓 Claude 能自主完成數小時的軟體開發任務。

#harness-design #ai-agent #anthropic #claude #multi-agent #long-running-agents #agent-sdk

ai guide AI Agent 實戰 2026年3月28日

從 Prompt 到 Harness：AI 工程的三次演化

AI 工程經歷三個階段：Prompt Engineering（寫好指令）→ Context Engineering（餵對資訊）→ Harness Engineering（設計整個工作環境）。每一次演化不是取代前者，而是在更高的抽象層級上操作。

#harness-engineering #prompt-engineering #context-engineering #ai-agent #agentic-ai

ai guide 2026年3月28日

Phil Schmid：為什麼 Agent Harness 是 2026 年最重要的事

模型是 CPU，harness 是作業系統，agent 是應用程式。模型能力再強，沒有好的 harness 就只是 demo。Phil Schmid 認為 harness 是 2026 年 AI 工程最關鍵的基礎設施。

#harness-engineering #ai-agent #agent-harness #model-drift #benchmarks #claude-code

tech guide 2026年3月28日

AI Agent 繞過 Cloudflare 反爬蟲完整指南：從踩坑到自建 MCP Server

標準 Playwright 無法通過 Cloudflare 驗證。playwright-extra + stealth 和 nodriver 都能繞過，最終包成 MCP server 讓 AI agent 自動使用。

#cloudflare #anti-bot #playwright #nodriver #stealth #mcp #ai-agent #web-scraping

tech debug Claude Code 自動化指南 2026年3月27日

Claude Code Global Skills 新 Session 找不到？釐清 Skill Discovery 機制與排查方法

Global skills 放在 ~/.claude/skills/ 但新 session 或 Desktop App 看不到？問題通常不是檔案不存在，而是 skill 描述沒被載入 context。本文釐清 CLI vs Desktop App 的差異、settings.json 的角色，以及最穩定的解法。

#claude-code #skills #ai-agent #dx #troubleshooting #settings

tech guide Claude Code 自動化指南 2026年3月27日