LLM Agent 的技能管理革命:從 Voyager 到 MUSE-Autoskill 的 Skill Lifecycle 全景
MUSE-Autoskill(2026)提出五階段 skill 生命週期框架,自創 skill 在 SkillsBench 達 60.35%(+7.16%),成功生成 skill 的任務上更達 87.94%,超越人工撰寫上限。本文整合六篇 arXiv 論文,梳理 skill evolution 研究全景。
MUSE-Autoskill(2026)提出五階段 skill 生命週期框架,自創 skill 在 SkillsBench 達 60.35%(+7.16%),成功生成 skill 的任務上更達 87.94%,超越人工撰寫上限。本文整合六篇 arXiv 論文,梳理 skill evolution 研究全景。
Browserbase 在 2026-05 推出的 browse.sh,是「瀏覽器技能目錄 + Browse CLI」兩件事。核心論點:瀏覽器 Agent 的瓶頸是健忘症不是推理,把學過的網站操作存成純文字 SKILL.md,Craigslist 任務官方自評從 ~$0.22 降到 ~$0.12。注意它跟 2018 年的 Browsh 文字瀏覽器毫無關係。
Claude 沒有 docx_tool / pdf_tool — 它只用 bash + file tools,加上 SKILL.md 指令、容器內預裝的 pdfplumber / python-pptx 等 library,三層拼出檔案讀寫能力。
綜述 11 個公開的 LLM 寫作 pipeline,三條主流模式:多 agent(researcher → writer → critic)、Karpathy LLM-wiki(raw + wiki + LLM 寫不手寫)、品質防線(technical verifier + never fabricate + brief gate)。Princeton GEO 論文(KDD 2024)量化了 inline 引用 +28%、加數字 +33%、quote 原文 +41%、關鍵字塞詞 −9%。
Agent Skills 是 Addy Osmani 開源的 19 個生產級工程技能,透過 /spec → /plan → /build → /test → /review → /ship 的指令驅動 AI 代理遵循資深工程師的開發紀律,而不是走捷徑。
Skills 是 AgentSkills 相容的 SKILL.md 資料夾,有 6 層載入優先順序。ClawHub 是公開市場。Sub-agent 最多巢狀 5 層。
Skill 是寫給 AI 看的 SOP。一個 markdown 檔案定義步驟,Claude 照著執行。不用寫程式,不用學框架,只要把「有經驗的人會怎麼做」寫成步驟就好。