Browser MCP 三選一:CDP、Playwright MCP、Puppeteer MCP 比較
@playwright/mcp 用 accessibility tree 取代截圖,token 消耗最低,是 AI agent 做網頁自動化的首選;Puppeteer MCP 截圖導向適合需要視覺回饋的場景;直連 CDP 適合底層工具開發與高層工具未暴露的功能。
@playwright/mcp 用 accessibility tree 取代截圖,token 消耗最低,是 AI agent 做網頁自動化的首選;Puppeteer MCP 截圖導向適合需要視覺回饋的場景;直連 CDP 適合底層工具開發與高層工具未暴露的功能。
Chrome DevTools MCP 是把 Chrome DevTools Protocol(CDP)包成 MCP server 的做法,讓 AI agent 可以直接呼叫 40+ CDP Domain,存取 Playwright 和 Puppeteer MCP 未暴露的 Profiler、HeapProfiler、Security 等底層功能,代價是需要自行實作 MCP tool 定義與 auto-wait 邏輯。
@playwright/mcp 預設用 accessibility tree(browser_snapshot)取代截圖,省下 90%+ 的 token 消耗,加上 Playwright 原生 auto-wait,是目前 AI agent 做網頁自動化的最佳起點。
server-puppeteer 是 MCP 官方 monorepo 裡的 Puppeteer 封裝,工具集精簡(7 個工具),以截圖 + evaluate 為核心,適合需要視覺回饋或自訂 JS 執行的場景,但每次截圖的 token 成本比 Playwright MCP 高出數倍。
工具一多,選擇準確率不是緩降是崩塌:4→51 個工具從 43% 掉到 2%、10→100+ 個從 78% 掉到 13.62%。根治解法是別一次塞全部——Anthropic Tool Search Tool 用 defer loading + 檢索砍 85% token,Opus 4.5 準確率 79.5%→88.1%。description 品質的效益是條件式的:簡單場景沒差,多工具串接場景 correctness 44%→50%。
Perplexity 2026-05 開源的 Go 唯讀掃描器(v0.1.1、零非 stdlib 依賴)。盤點 npm/PyPI/Go/RubyGems/Composer/MCP/編輯器與瀏覽器擴充等來源成 NDJSON,比對自訂 exposure catalog,回答供應鏈事件當下「機隊哪台機器現在中了」。它刻意不執行任何套件管理員,也不是 EDR。
A2UI 是 Google 在 2025-12-15 開源的 agent 生成式 UI 協定:agent 只送宣告式 JSON 描述 UI 意圖,client 用自己的元件 catalog 白名單渲染成原生畫面,疊在 A2A 之上。發布時 format v0.8,3 個月後已迭代到 v0.9。
CodeGraph 用 tree-sitter 把 codebase 抽成本地 SQLite/FTS5 知識圖譜,讓 AI coding agent 查圖而不是掃檔。官方端到端 benchmark(7 repos、median of 4)平均省 35% 成本、70% tool calls;但前提是 agent 直接走圖——把探索 delegate 給只會讀檔的 subagent,CodeGraph 反而變成 overhead。
字節跳動開源(MIT、約 13k stars)的 UI 自動化框架。UI 動作只靠截圖餵給視覺語言模型(Qwen3-VL / Doubao / Gemini-3 / UI-TARS),不解析 DOM;一套 JS API 跨 Web / Android / iOS / 桌面,v1.0 起更直接移除 DOM 動作模式。代價是每步較慢、token 較貴。
Anthropic 2026-04-17 發 Claude Design,4-28 nexu-io/open-design 公開,同樣的 artifact-first loop、Apache-2.0、跑在你已經有的 16 個 coding-agent CLI 上。兩週從 0.1 到 0.7、40k+ stars。把 AI 設計工具從 vertical SaaS 攤平成 skill bundle 的範式轉移。
AI agent 可透過 Skills、MCP Connector、直接 API 三種方式操作影片生成工具,選對整合方式比選對工具更重要。
別再把所有 tool description 在 session 開頭一次塞進 context。讓 model 寫 code、runtime 執行,tool 定義只在 import 那行才進 context — Anthropic 的 GDrive→Salesforce 範例從 ~150K tokens 降到 2K,Cloudflare 的 2,500 endpoints schema 從 1.17M 降到 1K。
Anthropic 開源了 12 個金融業 Agent + 11 個 MCP connector,最值得抄的不是 Agent 本身,而是『同一份 prompt 雙 runtime』和『純檔案擴充』的分層設計。
用 Claude Code、Cursor 等 AI agent 時,內建 WebFetch / WebSearch 常被 Cloudflare、地理限制或 rate limit 擋住。接一個 search MCP server 是最直接的解法,這篇比較 2026 年實際能用的選項。
goose 是由 Linux Foundation 旗下 AAIF 維護的開源 AI Agent,支援 15+ LLM 供應商、70+ MCP 擴充,用 Rust 打造桌面 App + CLI + API,定位是不鎖廠商、可自架的 Claude Code 替代方案。
AEO/GEO 工具不是單一類別,而是三個面向:輸入面(網站有沒有準備好給 AI 讀)、流量面(AI bot 實際爬了多少)、輸出面(品牌在答案裡怎麼被提到)。這篇把三面向、從開源自架到商業 SaaS 的工具一次攤開。
Agentic Engineering 不是讓 AI 寫更快的程式碼,而是讓軟體更快走完整個交付流程——透過多 agent 協作,壓縮跨團隊的協作摩擦。
MCP 不會退場,但有效範圍比想像中窄。本機開發場景 CLI 和 raw API 幾乎都贏過 MCP;MCP 真正不可替代的,是「跨 agent 共享的本機工具層」這條窄縫。
Graphify 用 tree-sitter AST 提取程式碼結構,再用 LLM 語意分析文件與圖片,把整個專案壓縮成一張可查詢的知識圖譜。號稱每次查詢比讀原始檔案省 71.5 倍 token。
Claw Code 是用 Rust 從零重寫的 Claude Code CLI 替代品,48K 行程式碼、40 個工具、MIT 授權。最驚人的是整個專案在 5 天內由多個 AI Agent 協作完成,上線不到一週就突破 170K stars。
香港大學 HKUDS 開源的 Agent Harness 框架,實作了工具呼叫、技能載入、記憶、權限、多代理協作等完整基礎設施,支援 Anthropic / OpenAI / GitHub Copilot 三種 API 格式。
code-review-graph 用 Tree-sitter 解析 codebase 建立持久化知識圖譜,追蹤變更的爆炸半徑,只把真正相關的 context 餵給 AI,號稱平均省下 8.2 倍 token。
Agent CLI 不是更聰明的補全工具,而是能讀懂 codebase、執行多步驟任務、操作真實環境的 AI 代理。Claude Code、Codex CLI、Gemini CLI、OpenCode、Aider、Pi、Kiro、Amp、Cursor CLI... 工具越來越多,但底層共享一套設計邏輯——理解這套邏輯,才能真正用好它們。
2025–2026 年,網站不只要給人看,還要給 AI 看。從 llms.txt、Schema Markup、GEO 到 RAG ingestion pipeline,這篇整理了讓你的網站變成 AI 可用資料來源的完整技術地圖。
TTS 支援 ElevenLabs/Microsoft/OpenAI 三家,PDF 有 native 和 extraction 兩種模式,Lobster 是確定性工作流 runtime,MCP 支援外部工具擴展。
標準 Playwright 無法通過 Cloudflare 驗證。playwright-extra + stealth 和 nodriver 都能繞過,最終包成 MCP server 讓 AI agent 自動使用。
每個 AI 工具都有自己的呼叫格式,整合成本高。MCP(Model Context Protocol)是 Anthropic 提出的開放標準,統一 AI Agent 與外部工具、資料源的通訊協定,讓工具可以跨 Agent 重用。
Claude 官方架構師認證的完整備考指南:五大領域重點、六大考試情境、常見反模式與實際演練建議。
用 FastMCP 把本地 Python 腳本包成 MCP Server,讓 Claude Code 可以直接呼叫,不再需要手動跑 pipeline。
MCP tool 回傳 description 欄位導致 1033 筆職缺超過 token 上限,改成預設不回傳 description 並加上分頁就解決了。
AI Agent 不是一個技術,是一整個架構體系。本文是系統化導航:從 Agent 三支柱(Context/Cognition/Action)出發,穿過 AI 工程三階段演化(Prompt → Context → Harness),到八種 Multi-Agent 設計模式和生產級 Harness 基礎設施。每個主題都有對應專文深入。
AI Agent 不是黑盒子——它由三層構成:知道什麼(Context)、怎麼想(Cognition)、能做什麼(Action)。搞清楚這三層,才能理解 agent 為什麼有時聰明、有時失控,以及怎麼設計一個真正好用的 agent 系統。