ai

151 篇文章

ai 2026年5月6日

Groq Console：用 LPU 推論開源模型的開發者平台

Groq Console 是 Groq 自家 LPU 晶片的開發者入口，提供 OpenAI 相容 API、Playground、免費額度，主打把 Llama、Qwen、DeepSeek 等開源模型跑出市面上最快的 token/秒。

#groq #lpu #inference #llm #openai-compatible #developer-platform

ai deep-dive 2026年5月2日

goose：開源、跨平台、不鎖 LLM 的本地 AI Agent

goose 是由 Linux Foundation 旗下 AAIF 維護的開源 AI Agent，支援 15+ LLM 供應商、70+ MCP 擴充，用 Rust 打造桌面 App + CLI + API，定位是不鎖廠商、可自架的 Claude Code 替代方案。

#goose #ai-agent #open-source #mcp #rust #linux-foundation #aaif #claude-code #cli #desktop-app

ai guide 2026年4月28日

Gemma on Cloudflare Workers AI：繁中應用的務實選擇

在 Cloudflare Workers AI 上跑 LLM，gemma-3-12b-it 的繁體中文指令跟隨比 llama-3.1-8b-instruct 明顯更好；2026 年 Gemma 4 上線後多了 Vision、Function calling 與 256K context，視需求升級。

#gemma #cloudflare-workers-ai #llm #traditional-chinese

ai project 2026年4月28日

Qwen（通義千問）：阿里巴巴的開源 LLM 家族，從 72B 到 397B 的演進全覽

Qwen（通義千問）是阿里巴巴推出的開源 LLM 家族，以 Apache 2.0 授權、201 語言覆蓋和快速迭代聞名。最新的 Qwen3.6（2026/04）聚焦 Agentic Coding，27B Dense 版本在 SWE-bench 77.2%、Terminal-Bench 59.3%，與 Claude Opus 同級；新增 Thinking Preservation 讓 agent 跨輪保留推理脈絡。

#qwen #alibaba #llm #open-source #moe #multimodal #apache2 #ai-model #dashscope #on-device-ai #agentic-coding

ai 2026年4月23日

用 LLM 做知識管理：從 Karpathy 的 llm-wiki 到開源生態全覽

Karpathy 在 2026 年提出 llm-wiki 模式，讓 LLM 主動維護 markdown wiki 而非每次從頭 RAG；目前已有 100+ 開源實作，從本機 CLI 到 serverless Telegram bot 各有差異。

#llm-wiki #knowledge-management #karpathy #obsidian #cloudflare #second-brain

ai 2026年4月23日

OpenAI Workspace Agents:從 Custom GPT 進化到團隊自動化平台

OpenAI 2026/4/22 推出 Workspace Agents,以 Codex 為底、可長時間在雲端執行、能串 Slack/Salesforce/Google Drive,是 Custom GPT 的企業版後繼者。

#openai #chatgpt #agent #workspace-agents #codex #enterprise-ai

ai guide 2026年4月23日

36 小時建出法律合約 RAG：Weaviate Query Agent + ColQwen 架構拆解

用 Weaviate Query Agent + ColQwen 多向量模型，一個 prompt 在 36 小時內搭出生產等級的法律合約搜尋系統——這篇拆解它的架構邏輯、技術選擇，以及你真正需要注意的事。

#rag #weaviate #legal-ai #colqwen #muvera #vector-database #agentic-search

ai guide 2026年4月21日

AI Code Review 走到哪了：從 Cloudflare 的 Multi-Agent 系統看業界現況

Cloudflare 內部跑了 30 天 Multi-Agent Code Review，131K 次 Review、中位數 3 分鐘。這篇整理他們的架構，以及 Anthropic、GitHub、CodeRabbit、Greptile 等業界方案怎麼做同一件事。

#ai-code-review #multi-agent #cloudflare #claude-code #coderabbit #llm-ops #devops

ai guide 2026年4月21日

深入 Codex Agent Loop：OpenAI 如何讓 AI Agent 持續迭代工作

OpenAI 詳解 Codex 的 agent loop 設計：prompt 如何建構、multi-turn 對話如何管理、prompt caching 如何避免成本爆炸，以及 context window 自動壓縮的實作。

#codex #agent-loop #openai #responses-api #prompt-caching #context-window

ai guide 2026年4月21日

Codex App Server：OpenAI 如何把 Agent Harness 變成通用協議

OpenAI 把 Codex harness 包裝成 JSON-RPC over stdio 的 App Server，讓 VS Code、JetBrains、Web、桌面 App 都能共用同一套 agent loop，三個核心 primitive：Item、Turn、Thread。

#codex #app-server #json-rpc #agent-harness #openai #harness-engineering

ai guide 2026年4月21日

OpenAI 用 Codex 寫了 100 萬行程式碼：Harness Engineering 實戰

OpenAI 內部團隊 5 個月、3 人、0 行手寫程式碼，用 Codex 交付了一個完整產品。這篇整理他們在 AGENTS.md 設計、repo-local 知識庫、架構強制執行、entropy 管理上的核心心得。

#harness-engineering #codex #openai #agent-first #agents-md #agentic-coding

ai guide 2026年4月20日

Agentic Engineering：讓 AI Agent 像真實工程團隊一樣協作

Agentic Engineering 不是讓 AI 寫更快的程式碼，而是讓軟體更快走完整個交付流程——透過多 agent 協作，壓縮跨團隊的協作摩擦。

#agentic-engineering #multi-agent #langgraph #langsmith #a2a #mcp #worker-agent #leader-agent

ai guide 2026年4月20日

Agentic Engineering 的記憶問題：從類型、實作到擁有權

Agent 的記憶不是一個插件，而是 harness 本身的一部分。選對記憶類型、估算資料量、再決定用什麼技術——最後，也要搞清楚你是否真的擁有那份記憶。

#agentic-engineering #memory #langmem #agent-harness #context-engineering #multi-agent

ai guide 2026年4月20日

用 Codex + Gemini + Claude 做多引擎 Code Review：原理、模式與實作

AI 模型審查自己的程式碼時會自我合理化，用三個不同 CLI 做獨立 review 可以有效捕捉盲點——這篇介紹背後的設計哲學與實際的工作流程模式。

#claude-code #gemini-cli #codex-cli #code-review #agentic-workflow #multi-model

ai guide 2026年4月18日

把 AI Agent 接進開發流程：從 SDLC 五大階段看怎麼做

Agentic AI 不只是 autocomplete，而是能自主執行多步驟任務的 AI 系統。這篇文章拆解 SDLC 的五大階段，說明每個階段能從哪裡切入、怎麼從 CLI 工具走到全流程自動化，以及目前最值得追蹤的外部資源。

#agentic-ai #sdlc #coding-agents #github-actions #claude-code #spec-driven-development #ai-workflow

ai guide 2026年4月18日

一本由 AI 自己寫的書，教你怎麼跟 AI 一起寫軟體

Encyclopedia of Agentic Coding Patterns 收錄 190 個 pattern，幫你在 AI 代寫程式的時代做出正確的軟體決策——而這本書本身就是由 AI agent 自主撰寫和維護的。

#agentic-coding #design-patterns #llm #ai-agent #software-engineering #claude-code

ai guide 2026年4月18日

GitHub Copilot Coding Agent：把 Issue 丟給 AI，讓它自己開 PR

GitHub Copilot Coding Agent 讓你把 Issue 指派給 Copilot，它在雲端沙箱裡自動開 branch、寫程式、跑 CI、開 PR。成功關鍵是設好 AGENTS.md，沒設定的話 agent 容易跑偏。適合定義清楚的中型任務，需 Pro+（每月 1,500 premium requests）或 Enterprise 方案。

#github #copilot #coding-agent #ai-agent #github-actions #sandbox #pr-automation

ai guide 2026年4月18日

knowledge-pipeline：六層管線幫你的 RAG 做品質管控

一個六層確定性管線，從 URL 擷取到向量嵌入全自動處理，透過八維度評分系統在資料進 RAG 之前就篩掉垃圾。

#rag #knowledge-management #pipeline #embedding #bge-m3 #sqlite #quality-control

ai guide 2026年4月18日

MarkItDown：把任何檔案餵給 LLM 之前，先讓它變成 Markdown

Microsoft 開源的輕量工具，把 PDF、Office、圖片、音訊等格式統一轉成 Markdown，專門為 LLM pipeline 設計。

#markitdown #llm #rag #document-processing #python

ai guide 2026年4月18日

MCP vs CLI vs API：Agent 工具介面的真實分界

MCP 不會退場，但有效範圍比想像中窄。本機開發場景 CLI 和 raw API 幾乎都贏過 MCP；MCP 真正不可替代的，是「跨 agent 共享的本機工具層」這條窄縫。

#mcp #agent #cli #api #claude-code #tool-use

ai guide 2026年4月17日

從實戰整理：AI Native 團隊該做好的事

不是每個人都該直接用 coding agent 改 code。AI Native 團隊要搞定 interface 規格、測試先行、monorepo、security guardrail、human-in-the-loop 與 token 預算管控，在 coding agent 上面再建一層 agent platform 並明確開發者角色轉型才是正途。

#ai-native #coding-agent #spec-driven-development #monorepo #ci-cd #code-review #agent-platform #security #observability #git-worktree #adr #human-in-the-loop #cost-management #model-selection #developer-role #failure-handling

ai guide 2026年4月17日

Autoreason：讓 LLM 自我修正時知道何時該停手

Autoreason 用競爭式多版本評估（A/B/AB + 盲測 Borda count）取代傳統的「批評→改寫」迴圈，解決 LLM 自我修正中的提示偏差、範疇蔓延和缺乏克制三大問題。

#autoreason #nous-research #self-refinement #llm #borda-count #iterative-reasoning #ai-agent

ai project 2026年4月17日

Vercel Open Agents：把 coding agent 從你的筆電搬到雲端

Vercel Labs 開源的 coding agent 參考實作。三層架構分離 web UI、agent workflow、sandbox VM，設計給想自建 Claude Code / Cursor Background Agent 的團隊當起手。

#coding-agent #vercel #open-source #agent-infrastructure #sandbox

ai guide 2026年4月14日

Claude Octopus：把 8 個模型同時掛在 Claude Code 上的共識 Plugin

Claude Octopus 是一個 Claude Code plugin，能同時叫 Codex、Gemini、Copilot、Qwen、Ollama、Perplexity、OpenRouter 和 Claude 一起看同一份 code，用 75% 共識門檻找單模型的盲點。內建 32 個 persona、48 個 /octo:* slash commands、51 個 skill、以及 Dark Factory 全自動 spec-to-code 管線。

#claude-code #plugin #octopus #multi-model #consensus #orchestration #dark-factory

ai guide 2026年4月13日

LLM Council：Karpathy 週末打造的多模型議會，三階段讓 LLM 互相評審

LLM Council 是 Andrej Karpathy 花一個週末做的本地 Web App，把一個問題同時丟給多個 LLM，再讓它們匿名互評，最後由 Chairman 模型綜合出一份答案。定位是讀書時比較模型用的小工具，99% vibe coded、不打算長期維護，但架構本身就是一份值得參考的 ensemble LLM 最小實作。

#llm-council #karpathy #multi-model #openrouter #fastapi #ensemble #peer-review

ai guide 2026年4月12日

Claude Managed Agents：把 agent 外殼和沙箱都交給 Anthropic

Claude Managed Agents 是 Anthropic 2026/04/08 推出的 beta 服務，提供 agent harness 加雲端容器沙箱，按 token 加 $0.08/session-hour 計費，適合長時間非同步任務，不想自己寫 agent loop 和跑沙箱的人值得看。

#claude #managed-agents #anthropic #ai-agent #sandbox #serverless #beta

ai guide 2026年4月10日

Agent Skills：讓 AI 代理像資深工程師一樣工作的技能框架

Agent Skills 是 Addy Osmani 開源的 19 個生產級工程技能，透過 /spec → /plan → /build → /test → /review → /ship 的指令驅動 AI 代理遵循資深工程師的開發紀律，而不是走捷徑。

#agent-skills #ai-agent #harness-engineering #claude-code #cursor #gemini-cli #development-workflow

ai guide 2026年4月10日

Graphify：把程式碼和文件變成可查詢的知識圖譜

Graphify 用 tree-sitter AST 提取程式碼結構，再用 LLM 語意分析文件與圖片，把整個專案壓縮成一張可查詢的知識圖譜。號稱每次查詢比讀原始檔案省 71.5 倍 token。

#graphify #knowledge-graph #tree-sitter #ast #code-understanding #claude-code #mcp

ai project 2026年4月5日

Claw Code：用 Rust 重寫 Claude Code 的開源 CLI Agent

Claw Code 是用 Rust 從零重寫的 Claude Code CLI 替代品，48K 行程式碼、40 個工具、MIT 授權。最驚人的是整個專案在 5 天內由多個 AI Agent 協作完成，上線不到一週就突破 170K stars。

#agent-cli #claude-code #claw-code #rust #open-source #multi-agent #mcp

ai guide 2026年4月5日

clawhip：讓多 Agent 開發不再失控的事件通知路由器

clawhip 是一個 Rust 寫的 daemon，專門把 AI coding agent 的事件（commit、PR、session 狀態）路由到 Discord / Slack，解決多 Agent 並行時「不知道誰在做什麼」的可觀測性問題。

#agent-cli #clawhip #notification #discord #slack #tmux #rust #multi-agent #ultraworkers

ai guide 2026年4月5日

Hermes Agent：Nous Research 的自我改進 AI 代理

Hermes Agent 是 Nous Research 開源的自我改進 AI 代理，具備持久記憶、技能學習、40+ 工具、多平台閘道，支援 200+ 模型供應商，是 OpenClaw 的正式繼承者。

#hermes-agent #nous-research #ai-agent #self-improving #gateway #multi-platform #openclaw

ai guide 2026年4月5日

notebooklm-py：用 Python 操控 Google NotebookLM 的非官方 API

notebooklm-py 透過逆向工程 Google 的 batchexecute RPC 協議，讓你用 Python / CLI / AI Agent 程式化操作 NotebookLM，包含音訊、影片、投影片、測驗等生成功能。

#notebooklm #google #reverse-engineering #python #rpc

ai guide 2026年4月5日

oh-my-claudecode：把 Claude Code 變成多 Agent 協作平台的增強層

oh-my-claudecode（OMC）在 Claude Code 上加了 8 種協作模式、19 個專業 Agent、跨模型調度（Claude + Codex + Gemini），讓單人 CLI 工具變成多 Agent 開發平台。支援 Deep Interview 需求釐清、Smart Model Routing 省 30-50% token、rate limit 自動恢復。

#agent-cli #claude-code #oh-my-claudecode #multi-agent #tmux #orchestration #ultraworkers

ai guide 2026年4月5日

oh-my-codex：在 OpenAI Codex CLI 上疊加結構化工作流的增強層

oh-my-codex（OMX）不是取代 Codex CLI，而是在它上面加一層結構化工作流——從需求釐清、計畫產出到多 Agent 並行執行，用 4 個核心 Skill 把散亂的 prompt 對話變成可追蹤的開發流程。

#agent-cli #openai-codex #oh-my-codex #workflow #multi-agent #tmux #developer-tools

ai guide 2026年4月5日

oh-my-openagent：用多模型 Agent 團隊取代單一 LLM 的編碼框架

oh-my-openagent（OmO）把 OpenCode 從單一 LLM 工具變成多模型 Agent 團隊——Opus 當主力、GPT-5.2 當架構師、Gemini 做前端、Sonnet 查文件，一個 ultrawork 關鍵字觸發全員並行。48K stars，UltraWorkers 生態系中最早建立多 Agent 編碼模式的專案。

#agent-cli #oh-my-openagent #opencode #multi-agent #multi-model #orchestration #ultraworkers

ai project 2026年4月5日

OpenHarness：把 Agent Harness 完整開源的框架

香港大學 HKUDS 開源的 Agent Harness 框架，實作了工具呼叫、技能載入、記憶、權限、多代理協作等完整基礎設施，支援 Anthropic / OpenAI / GitHub Copilot 三種 API 格式。

#agent-harness #open-source #multi-agent #tool-use #mcp

ai guide 2026年4月4日

Claude Code Agent Teams 怎麼用？從 GitHub 6,400+ 個 agent 看設計模式

GitHub 上已有 6,400+ 個 .claude/agents/*.md 檔案。我們拆解了 4 個代表性專案——ChemistryTimes（內容生產 pipeline）、claude-sub-agent（document-driven 開發流水線）、agentic（Temporal.io DAG 平行執行）、vs-copilot-multi-agent（Hook 強制記憶寫入）——加上 ruflo 的企業級 swarm 架構，歸納出 6 種設計模式和 5 個實戰趨勢。

#claude-code #agent-teams #subagent #multi-agent #orchestrator-pattern #ai-pipeline #context-engineering #harness-engineering #temporal #swarm #quality-gates

ai guide 2026年4月4日

從 Stripe 到 Meta：矽谷一線公司如何用 AI Agent 取代鍵盤

矽谷一線公司各自獨立打造內部 AI coding agent，從 Slack 訊息到 merged PR 全程自動化。深入拆解 Stripe、Ramp、Coinbase、Spotify 四家的架構，再擴展到 Google、Meta、Amazon、Uber、Goldman Sachs、Walmart 等十多家公司的做法與指標。

#ai-agent #coding-agents #stripe-minions #agentic-coding #developer-tools #automation #meta #google #uber #amazon

ai guide 2026年4月3日

LLM 知識庫的三種模式：知識庫、經驗庫、部落格

Andrej Karpathy 提出用 LLM 編譯個人知識 wiki 的框架——收集原始資料、LLM 編譯成 .md wiki、對 wiki 做 Q&A、輸出歸檔回 wiki。本文比較三種實踐路線：Karpathy 的知識庫模式、社群的經驗庫模式、以及 quidproquo 的部落格模式。

#llm-knowledge-base #obsidian #knowledge-management #fine-tuning #rag #claude-code #karpathy

ai guide 2026年4月3日

AI Agent 的 Cache 不只一層：從 Claude Code 的 18 種快取到 ReAct Agent 的多層設計

拆解 Claude Code 的 18+ 種快取機制後發現：provider-level prompt cache 你做不了，但 embedding cache、tool result cache、entity cache 你不但做得了，效果還更好。附完整的 AgentCache 介面設計與 per-tool TTL 策略。

#react-agent #cache #prompt-cache #semantic-cache #claude-code #cloudflare-kv #llm-cost-optimization

ai guide 2026年4月3日

AI Agent 的 Tool 描述不該是靜態的：從 Claude Code 學到的動態 prompt() 設計

Claude Code 的 45 個 tool 中，每個 prompt() 都會根據用戶類型、feature flags、系統能力動態調整。將這個模式套用到 ReAct Agent，根據 orchestrator 模型能力、locale、可用 tools 三個維度動態生成 tool description，小模型自動補 few-shot，大模型省 token。

#react-agent #tool-use #prompt-engineering #claude-code #few-shot #dynamic-prompt

ai guide 2026年4月2日

Claude Code 完整方案分析：終端 Agent 的深度推理之王

Claude Code 從 $20/mo Pro 到 $200/mo Max 20x，Opus 4.6 推理深度業界最強，Max 方案吃到飽定價讓重度使用者省下 90%+ 的 API 費用。

#agent-cli #claude-code #pricing #opus #sonnet #haiku #subagent #anthropic

ai guide 2026年4月2日

Cursor CLI 完整方案分析：從 IDE Agent 延伸到終端的全能選手

Cursor CLI 將 IDE 的 Agent 帶入終端，支援 interactive TUI 與 headless 模式、Plan/Ask/Agent 三種模式、Cloud Handoff 雲端接力、CI/CD 整合，$20-200/mo。

#agent-cli #cursor #pricing #cli-agent #cloud-handoff #plan-mode #tui

ai guide 2026年4月2日

Gemini CLI 完整方案分析：業界最慷慨免費額度的終端 Agent

Gemini CLI 免費提供 60 req/min、1,000 req/day，含 Gemini 2.5 Pro 和 1M token context window。Google 開源專案，多數開發者完全不需要付費。

#agent-cli #gemini-cli #google #pricing #free-tier #terminal-agent

ai guide 2026年4月2日

Kiro (AWS) 完整方案分析：Spec-Driven 開發的 Agentic IDE

Kiro 免費方案含 50 credits，Auto 模式自動混合多模型省成本，Spec-Driven 開發流程將 vibe coding 升級為可追蹤的結構化開發，Agent Hooks 實現本地 CI/CD 自動化。

#agent-cli #kiro #aws #pricing #auto-mode #specs #hooks #bedrock

ai guide 2026年4月2日

OpenAI Codex 完整方案分析：ChatGPT 生態系的 Agent 整合

Codex 綁定 ChatGPT 訂閱（$20-200/mo），GPT-5.4 + mini 自動路由是亮點，CLI 支援 Plan 模式與 API Key 模式雙軌計費。

#agent-cli #openai-codex #pricing #gpt-5 #chatgpt #model-routing

ai project 2026年4月2日

OpenCode 完整方案分析：75+ 模型供應商的開源終端 Agent

OpenCode 是免費開源的 Go 語言 CLI agent，95K+ GitHub stars，支援 75+ 模型供應商含本地 Ollama，可用 Copilot/ChatGPT 帳號認證，session 中途切換模型不丟上下文。

#agent-cli #opencode #open-source #terminal-agent #multi-provider #ollama

ai guide 2026年4月2日

Agent CLI 訂閱方案全比較：打造可自由切換的多模型使用模式

比較 2026 年六大 Agent CLI 訂閱方案（Claude Code、Cursor CLI、Codex、Kiro、Gemini CLI、OpenCode），並研究多模型路由模式——簡單任務給便宜模型、複雜任務給強模型，實測可省 40-85% 成本。

#agent-cli #multi-model-routing #claude-code #cursor #codex #kiro #gemini-cli #opencode #llm-router #cost-optimization

ai guide 2026年4月2日

2026 個人 AI 硬體選購指南：DGX Spark、Mac Studio、MSI AI Edge 全比較

比較 NVIDIA DGX Spark、Apple Mac Studio M4 Ultra、ASUS Ascent GX10、MSI AI Edge 等個人 AI 工作站，幫你找到適合的本地推論硬體。

#hardware #local-inference #dgx-spark #mac-studio #msi-ai-edge #asus-ascent-gx10 #llm #edge-ai

ai guide 2026年4月2日

Multi-Model Routing 開源工具與實作：讓對的模型做對的事

透過多模型路由，將 70% 的簡單任務導向便宜模型，只讓 10-15% 的複雜任務使用旗艦模型，實測節省 40-85% 推論成本。本文介紹五個主要開源工具的架構與實作。

#multi-model-routing #llm-router #cost-optimization #agent-router #freerouter #ruflo

ai guide 2026年4月1日

Agent CLI 完整指南：設計邏輯、工具比較與使用原則

Agent CLI 不是更聰明的補全工具，而是能讀懂 codebase、執行多步驟任務、操作真實環境的 AI 代理。Claude Code、Codex CLI、Gemini CLI、OpenCode、Aider、Pi、Kiro、Amp、Cursor CLI... 工具越來越多，但底層共享一套設計邏輯——理解這套邏輯，才能真正用好它們。

#agent-cli #claude-code #codex-cli #gemini-cli #opencode #pi #kiro #aider #amp #cursor-cli #agentic-ai #developer-tools #cli #mcp #context-engineering

ai guide 2026年4月1日

2026 年 15 個值得關注的 Agent 框架

按 GitHub Stars 排序，盤點 2026 年 15 個主流 AI Agent 框架的定位、特色與適用場景。不是排名，是地圖。

#agent #framework #langgraph #crewai #openai #anthropic #google-adk #mastra #openclaw #dify #n8n #llamaindex #metagpt #smolagents #agno #pydantic-ai

ai guide 2026年4月1日

一句話發一篇 IG 輪播 — 從手動 3 小時到全自動的 Pipeline 實作教學

用 Claude Code 當 orchestrator，串接 Playwright 截圖、catbox.moe 圖床、Meta Graph API 發布、Telegram 通知，一句話完成 IG 輪播圖文的生成與發布。

#claude-code #instagram #automation #playwright #github-actions #meta-graph-api

ai guide 2026年4月1日

llama.cpp — 從純 C++ 到消費級硬體上的 LLM 推論引擎

llama.cpp 是目前最廣泛使用的本地 LLM 推論引擎，用純 C/C++ 實作，支援 CPU、Metal、CUDA、Vulkan 等多後端，搭配 GGUF 量化格式讓消費級硬體能跑數十億參數的模型。

#llama-cpp #gguf #quantization #llm-inference #apple-silicon #metal #cuda #local-llm

ai guide 2026年4月1日

TurboQuant+ — 用兩階段量化把 KV Cache 壓到 2-bit，讓 MacBook 跑 100B 模型

TurboQuant+ 是 Google Research ICLR 2026 論文的開源實作，用 PolarQuant + QJL 兩階段量化壓縮 KV cache 達 3.8-6.4x，讓消費級硬體跑更大模型和更長上下文。

#turboquant #kv-cache #quantization #llm-inference #llama-cpp #apple-silicon

ai guide 2026年3月31日

能在手機上跑的小模型：2026 年的選擇與限制

2026 年行動端 LLM 主力是 Gemma 3n、Qwen 3.5 Small、Llama 3.2、Phi-4-mini、Ministral 3 和 SmolLM3。3B 以下量化模型在 8GB RAM 手機上能跑到 30–50 tokens/sec，但 RAM、散熱和 context window 仍是硬限制。

#on-device-ai #small-models #mobile #quantization #llama #gemma #phi #qwen #mistral #smollm #mobilellm

ai project 2026年3月31日

2026 Q1 開源 LLM 全景圖：從前沿大模型到手機端，完整盤點

2026 Q1 開源模型全面爆發：LLM 方面 GLM-5、Kimi K2.5、Qwen3.5 追上閉源；Embedding 和 Reranker 由 Qwen3 和 BGE 主導；語音有 Voxtral TTS 和 Whisper V3；圖像有 FLUX.2；影片有 Wan 2.2 追平 Sora。這篇是完整導覽地圖。

#open-source #llm #glm-5 #kimi #deepseek #qwen #llama #gemma #mistral #minimax #phi #smollm #gpt-oss #moe #on-device-ai #embedding #reranker #tts #stt #image-generation #video-generation #code-model #ollama #vllm

ai guide 2026年3月30日

AI-Ready Content：把網站變成 AI 可讀的資料來源，完整指南

2025–2026 年，網站不只要給人看，還要給 AI 看。從 llms.txt、Schema Markup、GEO 到 RAG ingestion pipeline，這篇整理了讓你的網站變成 AI 可用資料來源的完整技術地圖。

#ai-ready-content #llms-txt #geo #rag #web-scraping #structured-data #mcp #seo #rsl #webmcp

ai guide 2026年3月30日

Harness Engineering 進階模式：Tool Registry、Guard System 與 Checkpoint-Resume

Harness 不只是呼叫 LLM 的 wrapper。Tool Registry 管理工具的動態載入與選擇、Guard System 建立四層防護網、Checkpoint-Resume 讓長時間任務可以中斷恢復。這三個模式是生產級 Agent 系統的關鍵基礎設施。

#harness-engineering #tool-registry #guard-system #checkpoint-resume #agent

ai guide 2026年3月30日

Skill vs Subagent：Claude Code 兩種 Agent 協作模式比較

Skill 是你手動呼叫的 prompt 模板，Subagent 是 Claude 自動 routing 的獨立 agent。看起來很像，但觸發方式、工具隔離、context 管理完全不同。

#claude-code #multi-agent #subagent #skill

ai guide 2026年3月30日

Ticketing 已死，Review 才是新的 Planning

當 AI agent 能在幾分鐘內把 intent 變成 PR，軟體工程的瓶頸就從「規劃該做什麼」翻轉成「評估做出來的東西對不對」。Ticketing 時代的產物（sprint、story point、backlog grooming）正在壓縮歸零，取而代之的核心實踐是 review。

#code-review #software-engineering #ai-agent #adr #developer-workflow #ticketing

ai guide 2026年3月28日

Anthropic 的 Harness Design：讓 AI Agent 像工程師一樣工作

同一個模型在不同的 harness 設計下會產生截然不同的結果。Anthropic 用雙 Agent 架構、跨 session 狀態檔、GAN 式 generator-evaluator 迴圈，讓 Claude 能自主完成數小時的軟體開發任務。

#harness-design #ai-agent #anthropic #claude #multi-agent #long-running-agents #agent-sdk

ai guide 2026年3月28日

Google 的八種 Multi-Agent 設計模式

Google 整理了八種 multi-agent 設計模式：從最簡單的 Sequential Pipeline 到可組合的 Composite Pattern。不是越複雜越好——選對模式比堆 agent 重要。

#multi-agent #design-patterns #google #agent-architecture #generator-critic #orchestration

ai guide 2026年3月28日

從 Prompt 到 Harness：AI 工程的三次演化

AI 工程經歷三個階段：Prompt Engineering（寫好指令）→ Context Engineering（餵對資訊）→ Harness Engineering（設計整個工作環境）。每一次演化不是取代前者，而是在更高的抽象層級上操作。

#harness-engineering #prompt-engineering #context-engineering #ai-agent #agentic-ai

ai guide 2026年3月28日

OpenClaw Agent Loop：執行迴圈、Streaming 與 Queue

一次 agent 執行：收到訊息 → context 組裝 → 模型推理 → tool 執行 → 串流回覆 → 持久化。每個 session 串行、支援 5 種佇列模式。

#openclaw #agent-loop #streaming #queue #messages #debounce

ai guide 2026年3月28日

OpenClaw Agent Runtime：Workspace、System Prompt 與 Bootstrap

OpenClaw 的 agent 有自己的「家」（Workspace），靠 AGENTS.md、SOUL.md 等 bootstrap 檔案定義人格和行為，System Prompt 每次動態組裝。

#openclaw #agent #workspace #system-prompt #bootstrap #soul-md #agents-md

ai guide 2026年3月28日

OpenClaw 存取控制：Authentication、Secrets 與 OAuth

API Key 最穩、OAuth 用 PKCE + token sink 模式、SecretRef 支援 env/file/exec 三種來源、Trusted Proxy 可以委託 reverse proxy 做認證。

#openclaw #authentication #secrets #oauth #trusted-proxy #secretref #security

ai guide 2026年3月28日

OpenClaw 自動化（一）：Cron、Heartbeat 與 Webhook

Heartbeat 定期巡檢（30 分鐘批次），Cron 精確排程（支援隔離 session 和模型覆寫），Webhook 接收外部事件觸發 agent。

#openclaw #cron #heartbeat #webhook #automation #scheduling

ai guide 2026年3月28日

OpenClaw 自動化（二）：Standing Orders 永久指令

Standing Orders 給 agent 永久授權執行定義好的程式——有明確的範圍、觸發條件、approval gate 和升級規則，搭配 Cron 做時間控制。

#openclaw #standing-orders #automation #agents-md #autonomous

ai guide 2026年3月28日

OpenClaw 企業頻道：Slack、Teams、Google Chat 與 Matrix

Slack 有最完整的企業功能（native streaming、slash commands），Teams 需 Azure Bot 設定，Matrix 支援 E2EE 加密。

#openclaw #slack #microsoft-teams #google-chat #matrix #enterprise

ai guide 2026年3月28日

OpenClaw 主力頻道：WhatsApp、Telegram、Discord

WhatsApp 用 QR 配對 + Baileys、Telegram 用 Bot Token 最快上手、Discord 支援 guild/thread/button 互動元件。

#openclaw #whatsapp #telegram #discord #channels

ai guide 2026年3月28日

OpenClaw 其他頻道：Signal、iMessage、LINE、IRC、Nostr 與更多

Signal 用 signal-cli 注重隱私、iMessage 推薦走 BlueBubbles、LINE 用 webhook、IRC/Nostr/Twitch 各有特色。

#openclaw #signal #imessage #bluebubbles #line #irc #nostr #twitch #zalo

ai guide 2026年3月28日

OpenClaw 頻道總覽：配對、群組與路由

OpenClaw 支援 24+ 頻道同時運行，用 Pairing 控制誰能聊、用 Group Policy 控制群組行為、用 Routing 決定訊息送到哪個 agent。

#openclaw #channels #pairing #groups #routing #broadcast

ai guide 2026年3月28日

OpenClaw Gateway 篇（一）：設定系統與 Hot Reload

openclaw.json 用 JSON5 格式，嚴格 schema 驗證，支援 hybrid hot reload（安全變更即時生效，關鍵變更自動重啟）。

#openclaw #gateway #configuration #json5 #hot-reload #openclaw-json

ai guide 2026年3月28日

OpenClaw Gateway 篇（二）：遠端存取、Tailscale 與多 Gateway

Gateway 預設只綁 loopback，遠端存取用 SSH tunnel 或 Tailscale Serve/Funnel，多 Gateway 可以分散負載。

#openclaw #gateway #remote-access #tailscale #ssh-tunnel #multi-gateway

ai guide 2026年3月28日

OpenClaw 安裝指南（下）：雲平台、K8s 與 VPS 部署

OpenClaw 支援部署到 9 個雲平台、K8s、Ansible 自動化佈建，最低每月 $5 就能跑 24/7 Gateway。

#openclaw #deployment #kubernetes #fly-io #hetzner #gcp #azure #ansible #vps

ai guide 2026年3月28日

OpenClaw 安裝指南（上）：npm、Docker、Nix 與本機部署

OpenClaw 提供 6 種本機安裝方式：installer script、npm、Docker、Podman、Nix、Bun，加上 Raspberry Pi 部署和 source 編譯。

#openclaw #installation #docker #nix #podman #raspberry-pi #bun

ai guide 2026年3月28日

OpenClaw 模型進階：Failover、Prompt Caching 與 Token 計費

OpenClaw 內建 Auth 輪替 + Model Fallback 兩階段容錯，加上 Prompt Caching 省錢和完整的 Token 追蹤機制。

#openclaw #model-failover #prompt-caching #token-usage #cost-optimization

ai guide 2026年3月28日

OpenClaw 的模型需求與供應商生態

OpenClaw 支援 35+ 模型供應商，最低需求是模型支援 tool use + streaming，內建 auth 輪替和 model failover 機制。

#openclaw #llm #anthropic #openai #gemini #model-failover #tool-use

ai guide 2026年3月28日

OpenClaw 更多供應商：DeepSeek、Groq、Ollama、OpenRouter、Bedrock...

除了 Anthropic/OpenAI/Google 三大家，OpenClaw 還支援 30+ 供應商，從 DeepSeek 到本地 Ollama 都有。

#openclaw #deepseek #groq #ollama #openrouter #vllm #bedrock #sglang #mistral

ai guide 2026年3月28日

OpenClaw 多 Agent 與 Delegate 架構

OpenClaw 支援在一個 Gateway 內跑多個隔離 agent，透過 binding 路由訊息，還能用 Delegate 架構讓 AI 以代理人身份行動。

#openclaw #multi-agent #delegate #session-management #routing

ai guide 2026年3月28日

OpenClaw Nodes 深入：行動裝置與遠端主機

Node 是 Gateway 的周邊裝置——iOS/Android 提供相機/位置/通知，macOS 提供 Canvas/system.run，Node Host 讓遠端主機跑 exec。

#openclaw #nodes #ios #android #macos #camera #canvas #location #sms

ai guide 2026年3月28日

OpenClaw 文件導讀：200+ 份文件，從哪讀起？

OpenClaw 有 200+ 份文件，這篇幫你搞懂全貌、知道每塊在講什麼、依你的角色決定從哪讀起。

#openclaw #ai-gateway #self-hosted #documentation #guide

ai deep-dive 2026年3月28日

OpenClaw 參考篇：Pi 整合與設定參考

Pi 是 OpenClaw 內嵌的 coding agent runtime，OpenClaw 是 Pi 的 Gateway 殼。設定參考覆蓋 16 個頂層區塊、335 個文件。

#openclaw #pi #reference #configuration #features #architecture

ai guide 2026年3月28日

OpenClaw 桌面平台：macOS、Linux 與 Windows

OpenClaw 在 macOS 有選單列 app、Linux 用 systemd 跑服務、Windows 建議走 WSL2。三個平台的差異與注意事項。

#openclaw #macos #linux #windows #wsl2 #systemd #launchd

ai guide 2026年3月28日

OpenClaw 行動平台：iOS 與 Android

OpenClaw 的 iOS 和 Android app 不是 Gateway，而是 Node——讓手機的相機、螢幕、位置、語音成為 AI agent 的感官延伸。

#openclaw #ios #android #mobile #node #canvas #camera #voice-wake

ai guide 2026年3月28日

OpenClaw Plugin 系統：架構與開發指南

Plugin 用 TypeScript ESM 開發，支援 12 種能力註冊（頻道/模型/工具/TTS/圖片等），發布到 ClawHub 或 npm。

#openclaw #plugins #sdk #clawhub #channel-plugin #provider-plugin #typescript

ai guide 2026年3月28日

OpenClaw 沙箱機制：Docker、SSH 與 OpenShell

OpenClaw 沙箱有三層控制：Sandbox 決定在哪跑（Docker/SSH/OpenShell）、Tool Policy 決定能用什麼工具、Elevated 是 exec 的主機逃生門。

#openclaw #sandbox #docker #ssh #openshell #security #tool-policy #elevated

ai guide 2026年3月28日

OpenClaw Session、Memory 與 Compaction

OpenClaw 的 session 支援 4 種 DM 隔離層級，Memory 是 Markdown 檔案，Compaction 在 context 快滿時自動摘要壓縮。

#openclaw #session #memory #compaction #context-engine #pruning

ai guide 2026年3月28日

OpenClaw 威脅模型：MITRE ATLAS 安全分析與形式驗證

OpenClaw 用 MITRE ATLAS 框架分析 AI 系統威脅，有三個 Critical 風險（prompt injection、惡意 skill、憑證竊取），並用 TLA+ 形式驗證安全屬性。

#openclaw #security #mitre-atlas #threat-model #formal-verification #tla-plus

ai guide 2026年3月28日

OpenClaw 工具篇（一）：瀏覽器控制與網路搜尋

OpenClaw 的瀏覽器用 managed profile 隔離、支援遠端 CDP（Browserless/Browserbase）、Deep Research 結合搜尋和瀏覽做多步驟研究。

#openclaw #browser #web-search #deep-research #browserless #browserbase

ai guide 2026年3月28日

OpenClaw 工具篇（三）：Exec 工具、Thinking 層級與 Slash Commands

Exec 支援前景/背景/PTY 執行 + 三種安全等級（deny/allowlist/full），Thinking 有 7 個層級（off 到 adaptive），Slash Commands 分指令和 directive 兩類。

#openclaw #exec #thinking #slash-commands #fast-mode #verbose #reasoning

ai guide 2026年3月28日

OpenClaw 工具篇（二）：Skills 系統與 Sub-Agent

Skills 是 AgentSkills 相容的 SKILL.md 資料夾，有 6 層載入優先順序。ClawHub 是公開市場。Sub-agent 最多巢狀 5 層。

#openclaw #skills #clawhub #sub-agents #skill-md #agent-skills

ai guide 2026年3月28日

OpenClaw 工具篇（四）：TTS、PDF、Lobster 與 MCP

TTS 支援 ElevenLabs/Microsoft/OpenAI 三家，PDF 有 native 和 extraction 兩種模式，Lobster 是確定性工作流 runtime，MCP 支援外部工具擴展。

#openclaw #tts #pdf #lobster #mcp #media #elevenlabs #openai-tts

ai debug 2026年3月28日

OpenClaw 維運篇：疑難排解與診斷

openclaw doctor 是一站式診斷工具，openclaw sandbox explain 排查沙箱問題，openclaw channels status --probe 檢查頻道連線。

#openclaw #troubleshooting #doctor #diagnostics #operations

ai guide 2026年3月28日

OpenClaw UI：Control UI、TUI 與 Web Chat

Control UI 是瀏覽器 dashboard（http://127.0.0.1:18789），TUI 是終端互動介面，Web Chat 是 WebSocket 即時聊天。

#openclaw #control-ui #tui #web-chat #dashboard #terminal

ai guide 2026年3月28日

Phil Schmid：為什麼 Agent Harness 是 2026 年最重要的事

模型是 CPU，harness 是作業系統，agent 是應用程式。模型能力再強，沒有好的 harness 就只是 demo。Phil Schmid 認為 harness 是 2026 年 AI 工程最關鍵的基礎設施。

#harness-engineering #ai-agent #agent-harness #model-drift #benchmarks #claude-code

ai guide 2026年3月27日

LangGraph：用圖結構管理 Agent 工作流程

LangGraph 把 LLM 工作流程建模成有向圖，解決多輪迭代、條件分支、平行執行這些用線性 pipeline 做很痛的問題。

#langgraph #agent #orchestration #rag #workflow

ai project 2026年3月26日

GLM-5：智譜 AI 的 744B 開源模型，用華為晶片訓出來的前沿 AI

GLM-5 是智譜 AI（Z.ai）於 2026 年 2 月發布的 744B MoE 開源模型，完全在華為昇騰晶片上訓練，以 MIT 授權開源。它是目前開源模型中排名最高的，在 Humanity's Last Exam 等基準上甚至超越 Claude 和 GPT-5，而 API 定價只有它們的 1/5 到 1/8。

#glm-5 #zhipu-ai #智譜ai #llm #moe #open-source #huawei-ascend #ai-model #agent

ai project 2026年3月26日

Kimi：月之暗面的長文本 AI 模型，憑什麼挑戰 GPT 和 Claude？

Kimi 是中國 AI 新創月之暗面（Moonshot AI）推出的大型語言模型，以超長 context window、開源策略和極具競爭力的定價聞名。從 2023 年的 200K context 到 2026 年的 K2.5 Agent Swarm，Kimi 已成為全球 AI 市場不可忽視的力量。

#kimi #moonshot-ai #llm #long-context #reasoning #月之暗面 #ai-model #moe #open-source

ai guide 2026年3月26日

Langfuse 完整指南：LLM 應用的可觀測性從零開始

Langfuse 是目前最成熟的開源 LLM Observability 平台。這篇從 Tracing、Prompt 管理、評估、Dataset 四個核心功能切入，帶你搞清楚它在實際專案中怎麼用。

#langfuse #observability #tracing #llm #prompt-management #evaluation #monitoring

ai guide 2026年3月24日

Context Engineering：為什麼你的 AI Agent 問題出在資訊，不在模型

Context Engineering 是 2025 年取代 Prompt Engineering 的核心概念：重點不再是「怎麼問」，而是「給什麼資訊」。把對的資訊在對的時機送進 context window，比換更強的模型更有效。這篇整理了定義、四大策略、實作技巧和常見失敗模式。

#context-engineering #prompt-engineering #ai-agent #rag #memory #agentic-ai

ai guide 2026年3月22日

MCP（Model Context Protocol）：AI Agent 工具呼叫的標準化協定

每個 AI 工具都有自己的呼叫格式，整合成本高。MCP（Model Context Protocol）是 Anthropic 提出的開放標準，統一 AI Agent 與外部工具、資料源的通訊協定，讓工具可以跨 Agent 重用。

#mcp #model-context-protocol #tool-use #agent #anthropic

ai guide 2026年3月20日

Claude Certified Architect Foundations 考試完整指南

Claude 官方架構師認證的完整備考指南：五大領域重點、六大考試情境、常見反模式與實際演練建議。

#claude #certification #agentic-ai #mcp #prompt-engineering #claude-code #agent-sdk

ai guide 2026年3月19日

Agent Memory 系統：從 RAG 到 Read-Write 記憶的演化

RAG 是唯讀的。Agent Memory 讓 AI 不只能讀，還能寫入和持久化資訊。三種記憶類型：Procedural（行為模式）、Episodic（時間事件）、Semantic（事實知識），構成完整的認知記憶系統。

#agent #memory #procedural-memory #episodic-memory #semantic-memory #rag

ai deep-dive 2026年3月18日

AI Agent 架構模式完整指南：從三支柱到 Multi-Agent 的系統化導航

AI Agent 不是一個技術，是一整個架構體系。本文是系統化導航：從 Agent 三支柱（Context/Cognition/Action）出發，穿過 AI 工程三階段演化（Prompt → Context → Harness），到八種 Multi-Agent 設計模式和生產級 Harness 基礎設施。每個主題都有對應專文深入。

#agent #architecture #harness #multi-agent #mcp #context-engineering #guide

ai guide 2026年3月17日

AI Agent 的三個核心支柱：Context、Cognition、Action

AI Agent 不是黑盒子——它由三層構成：知道什麼（Context）、怎麼想（Cognition）、能做什麼（Action）。搞清楚這三層，才能理解 agent 為什麼有時聰明、有時失控，以及怎麼設計一個真正好用的 agent 系統。

#ai-agent #context-engineering #llm #reasoning #ReAct #agentic-ai #memory #mcp

ai guide 2026年3月16日

Multi-Agent RAG：多個專業 Agent 協作的分散式檢索架構

單一 RAG Agent 處理所有查詢會遇到知識邊界和效能瓶頸。Multi-Agent RAG 把檢索任務分派給多個專業化 Agent，每個 Agent 有自己的知識庫和檢索策略，由中央 Orchestrator 協調合併結果。

#rag #multi-agent #orchestration #distributed-retrieval #agent

ai guide 2026年3月15日

LongRAG：用長上下文模型重新思考 RAG 的 Chunking 策略

傳統 RAG 把文件切成小 chunks 再檢索，但這造成資訊碎片化。LongRAG 利用 100K+ token 的長上下文模型，檢索更大的文件區段（整個章節甚至整份文件），減少碎片化同時保持檢索效率。

#rag #longrag #long-context #chunking #retrieval

ai guide 2026年3月15日

Speculative RAG：用小模型平行打草稿，大模型一次驗證

Speculative RAG 用小型專家模型從不同文件子集平行生成多個答案草稿，再由大型模型一次驗證選出最佳答案。準確度提升最高 12.97%，延遲降低最高 50.83%。

#rag #speculative-rag #dual-model #latency-optimization #accuracy

ai guide 2026年3月14日

Ollama 完整指南：一行指令在本地跑 LLM

Ollama 把 llama.cpp 包裝成 Docker 風格的 CLI + REST API，一行指令就能在本地跑 LLM。這篇從核心概念、安裝、API、硬體需求到 Modelfile 自訂，完整介紹這個工具適合什麼、不適合什麼。

#ollama #llm #local-inference #llama-cpp #self-hosted #openai-compatible

ai guide 2026年3月14日

RAG 系統模式完整指南：從 Naive 到 Multi-Agent 的十代演化與實戰導航

RAG 已經從簡單的「搜尋+生成」演化成涵蓋十個世代的技術體系。本文是系統化導航：從 Naive RAG 到 Multi-Agent RAG 的十代演化、檢索策略、Chunking、Embedding、Reranking、評估框架、可觀測性、成本優化。每個主題都有對應專文深入。

#rag #guide #retrieval #embedding #reranking #evaluation #agent

ai guide 2026年3月14日

vLLM — 從 PagedAttention 到生產級 LLM 推論引擎

vLLM 用 PagedAttention 解決 KV cache 記憶體浪費問題，搭配 continuous batching 和 prefix caching，成為目前最主流的開源 LLM 推論引擎。

#vllm #llm-inference #pagedattention #model-serving #gpu

ai guide 2026年3月13日

聊天機器人開發完整指南：狀態管理、記憶策略與技術棧選型

聊天機器人不只是接 API。對話狀態管理、記憶機制、Streaming、Guardrails、可觀測性、技術棧選型，每一層都影響使用者體驗。

#chatbot #state-management #memory #streaming #guardrails #langfuse

ai guide 2026年3月13日

Prompt Engineering 實戰：迭代方法論、常見錯誤與 Few-shot 最佳化

好的 Prompt 不是一次寫出來的，而是迭代出來的。從最簡單的 prompt 開始，用真實 case 測試，分類錯誤類型，針對性修改。本文涵蓋 System Prompt 三段式結構、推理框架選擇、Few-shot 最佳化、Token 預算管理和六個常見錯誤。

#prompt-engineering #few-shot #chain-of-thought #iteration #llm

ai guide 2026年3月12日

Agentic RAG：讓 LLM 自己決定要不要再搜尋一次

複雜多跳問題，RAG 一次搜尋不夠。Agentic RAG 讓 LLM 評估結果是否充分，不夠就改寫查詢再搜一次，形成 ReAct 迴圈。

#rag #agentic-rag #react #multi-hop #llm-agent

ai guide 2026年3月12日

BGE-M3：為什麼這個 Embedding 模型適合繁體中文 RAG

Embedding 模型的選擇直接影響 RAG 的搜尋品質。BGE-M3 的多語言訓練、1024 維向量、同系列 Reranker，是繁中 RAG 的實用選擇。

#rag #embedding #bge-m3 #multilingual #vector-search #cloudflare-workers-ai

ai guide 2026年3月12日

Chunking 策略：切塊方式決定 RAG 能不能找到答案

切太大找不準，切太小失去上下文。Chunking 是 RAG 最被低估的環節，策略選錯，後面再多優化都是白費。

#rag #chunking #indexing #text-splitting #retrieval

ai guide 2026年3月12日

ColBERT：向量搜尋的第三條路

Bi-Encoder 太粗糙，Cross-Encoder 太慢，ColBERT 的 Late Interaction 在兩者之間找到平衡：token 級別的相互比較，但可以預先計算文件向量。

#rag #colbert #late-interaction #retrieval #reranking

ai guide 2026年3月12日

Contextual Retrieval：幫每個 Chunk 加上「這段在說什麼」

文件切塊後，每個 chunk 失去了它在原文件中的上下文。Contextual Retrieval 在索引時為每個 chunk 注入文件級別摘要，解決 chunk 孤島問題。

#rag #contextual-retrieval #chunking #indexing #embedding

ai guide 2026年3月12日

CRAG：檢索失敗時，自動放寬條件重試

過濾條件太嚴格導致零結果？CRAG 自動放寬過濾條件重試，比讓 LLM 用通用知識瞎猜好多了。

#rag #crag #corrective-rag #retrieval #fallback

ai guide 2026年3月12日

Cross-Encoder Reranking：讓最相關的文件排到前面

向量搜尋的相似度分數不等於相關性，Cross-Encoder 用成對比較重新排序，把真正相關的文件推上來。

#rag #reranking #cross-encoder #bge-reranker #retrieval

ai guide 2026年3月12日

GraphRAG：把知識做成圖，讓 LLM 沿著關係推理

向量搜尋找相似，圖搜尋走關係。當問題需要跨多個實體的推理（岩場→路線→完攀者→難度分布），GraphRAG 比標準 RAG 更有優勢。

#rag #graphrag #knowledge-graph #multi-hop #microsoft

ai guide 2026年3月12日

Hybrid Search：用 BM25 + 向量搜尋彌補彼此的盲區

向量搜尋抓語義，BM25 抓關鍵字，兩者用 RRF 融合才能同時照顧模糊查詢和精確術語。

#rag #hybrid-search #bm25 #vector-search #rrf #embedding

ai guide 2026年3月12日

HyDE：用假設答案提升向量搜尋的 Recall

用 LLM 先生成一份「理想答案」，再把這份假設文件 embed 去搜尋，比直接搜尋查詢本身效果更好。

#rag #hyde #embedding #vector-search #query-enhancement

ai guide 2026年3月12日

RAG 個性化：從對話中學習用戶偏好

每次對話後，異步提取用戶可能的偏好和程度，下次查詢時自動個性化搜尋條件，不需要使用者手動設定。

#rag #personalization #memory #user-profile #async

ai guide 2026年3月12日

MMR + 熱門度加權：讓推薦結果既相關又多樣

只看相關性會讓結果都是同一條路線的不同描述，MMR 在相關性和多樣性之間取平衡，再疊加熱門度讓結果更實用。

#rag #mmr #diversity #reranking #popularity #recommendation

ai deep-dive 2026年3月12日

Modular RAG Pipeline：把 RAG 設計成可組合的 DAG

RAG 不是固定的三步流程，而是一組可以動態啟用、跳過、重排的步驟。Pipeline as Code 讓系統在不重新部署的情況下調整行為。

#rag #pipeline #architecture #modular #dag #cloudflare-workers

ai guide 2026年3月12日

Multi-Query Expansion：一個問題，多個角度搜尋

複雜查詢只用一個向量搜尋容易漏掉相關文件，讓 LLM 改寫成 3-5 個子查詢並行搜尋，召回率顯著提升。

#rag #multi-query #query-expansion #recall #rrf

ai guide 2026年3月12日

Multimodal RAG：把圖片也納入知識庫

攀岩路線有大量圖片資訊（路線圖、岩壁照片），純文字 RAG 遺漏了這些。Multimodal RAG 讓圖片也能被搜尋和理解。

#rag #multimodal #vision #image-embedding #clip

ai deep-dive 2026年3月12日

RAG 的三個世代：從 Naive 到 Modular

Naive RAG 夠用但有很多問題，Advanced RAG 針對性修補，Modular RAG 重新架構讓系統可組合、可配置。了解三個世代，才能理解現代 RAG 系統為什麼長這樣。

#rag #naive-rag #advanced-rag #modular-rag #architecture #evolution

ai guide 2026年3月12日

Plan-and-Execute：先規劃再執行的 RAG 模式

對複雜問題，先讓 LLM 規劃出需要哪些資訊、分幾步取得，再按計畫執行，比邊搜邊想更系統化。

#rag #plan-execute #agentic #multi-step #reasoning

ai guide 2026年3月12日

Query Classification：讓 RAG 知道該怎麼回答這個問題

不是所有問題都需要 RAG。用 LLM 先分類查詢類型，再決定執行路徑，節省成本又提升準確度。

#rag #query-classification #adaptive-routing #tool-selection #llm

ai guide 2026年3月12日

RAG A/B 測試：怎麼科學地比較兩個 Pipeline 配置

「加了 Cross-Encoder 之後感覺好多了」不是科學的評估。A/B 測試讓你知道改動是否真的有效，效果多大，在哪類查詢上有效。

#rag #ab-testing #experimentation #metrics #pipeline

ai guide 2026年3月12日

RAG 冷啟動：沒有資料時怎麼讓系統能用

RAG 系統需要資料才能回答問題，但一開始就沒有資料。冷啟動策略決定了系統從空到可用的路徑。

#rag #cold-start #bootstrapping #indexing #data

ai guide 2026年3月12日

RAG 成本優化：把每次查詢的花費壓到最低

RAG 系統的成本來自 LLM token、Embedding API、向量搜尋。每個環節都有可以壓成本的地方，但要確認優化沒有犧牲太多品質。

#rag #cost-optimization #performance #token-budget #caching

ai guide 2026年3月12日

RAG 評估框架：RAGAS、DeepEval、TruLens 怎麼用

RAG 系統的品質很難用直覺評估。RAGAS、DeepEval、TruLens 提供了系統化的指標框架，讓你知道是哪個環節出問題。

#rag #evaluation #ragas #deepeval #trulens #metrics #quality

ai debug 2026年3月12日

RAG 常見失敗模式：10 種問題和對應的解法

RAG 系統出問題，90% 的情況是這 10 種之一。先識別是哪種失敗模式，再找對應的解法，比盲目優化有效很多。

#rag #debugging #failure-modes #quality #troubleshooting

ai guide 2026年3月12日

RAG Guardrails：在輸入和輸出加一道防線

RAG 系統面對的攻擊不只是技術層面的，Prompt Injection 和 Jailbreak 是真實威脅。輸入輸出都需要獨立的防護層。

#rag #guardrails #security #prompt-injection #safety #llm

ai guide 2026年3月12日

RAG 可觀測性工具全景：2026 年的選擇

自己寫 trace 夠用，但開源工具讓你少做很多事。Langfuse、Phoenix、LangSmith 各有定位，選哪個取決於你對自架、開源、整合複雜度的取捨。

#rag #observability #langfuse #phoenix #langsmith #tracing #monitoring

ai guide 2026年3月12日

RAG Observability：黑盒子變透明的 17 步追蹤

RAG 系統最難的不是建起來，是搞清楚為什麼這次回答不好。Pipeline Tracing 把每個步驟的決策和數據記下來，讓除錯有跡可循。

#rag #observability #tracing #debugging #pipeline #monitoring

ai guide 2026年3月12日

RAG Prompt Engineering：System Prompt 和 Context 怎麼設計

搜尋找到了正確的文件，但 LLM 的回答還是不好——很多時候問題在 Prompt 設計。System prompt 結構、context 排版、指令語言都會影響輸出品質。

#rag #prompt-engineering #system-prompt #context #llm

ai guide 2026年3月12日

RAG Streaming：SSE 讓 LLM 回答邊生成邊顯示

LLM 生成需要 3-5 秒，等全部生成完再顯示體驗很差。SSE 讓 token 一邊生成一邊推送，首個字元出現時間從 5 秒縮到 1 秒以內。

#rag #streaming #sse #server-sent-events #cloudflare-workers #ux

ai guide 2026年3月12日

RAG 配額系統：用雙重限制控制 LLM 成本

只限制請求次數不夠，一個超長的查詢可能消耗掉十個普通查詢的 token。雙重配額（請求數 + token 數）才能真正控制成本。

#rag #quota #rate-limiting #token-budget #cost-control #cloudflare-workers

ai deep-dive 2026年3月12日

RAG vs Fine-tuning：不是非此即彼

RAG 和 Fine-tuning 解決的是不同問題。RAG 給模型新知識，Fine-tuning 改變模型的行為風格。大多數情況是兩者都用，而不是選一個。

#rag #fine-tuning #llm #architecture #comparison

ai guide 2026年3月12日

RRF：RAG 系統裡多路結果怎麼合併

BM25、向量搜尋、HyDE、Multi-Query 各出一份結果，怎麼合理地合成一份？RRF 用名次而不用分數，規避了跨系統分數無法比較的根本問題。

#rag #rrf #fusion #ranking #multi-source #retrieval

ai guide 2026年3月12日

Self-Reflection + LLM-as-Judge：讓 AI 評估自己的回答

用另一個 LLM 評估回答的準確度和品質，分數太低就重新生成，並自動加上適當的免責聲明。

#rag #llm-judge #self-reflection #groundedness #quality-assurance

ai guide 2026年3月12日

Semantic Caching：語義相近的問題只跑一次 RAG

快取不只能比對完全一樣的查詢，語義相近的問題也能命中快取，省下整個 RAG pipeline 的執行。

#rag #semantic-cache #caching #vector-search #performance

ai guide 2026年3月12日

SPLADE：比 BM25 更聰明的稀疏向量搜尋

BM25 只認識查詢裡出現的詞，SPLADE 能推斷相關詞彙並加入搜尋，在保持關鍵字搜尋精確性的同時獲得部分語義能力。

#rag #splade #sparse-vector #bm25 #retrieval #hybrid-search

ai guide 2026年3月12日

Text-to-SQL Router：精確查詢不走 RAG

「我今年完攀幾條」這種問題，RAG 語義搜尋永遠不如直接查資料庫。讓 LLM 識別意圖、提取參數，執行預定義 SQL 模板。

#rag #text-to-sql #sql #query-routing #structured-query

ai guide 2026年3月12日

Vector Database 選型：Pinecone、Weaviate、Qdrant、Vectorize 怎麼選

向量資料庫的選型比 LLM 選型更受部署平台限制。先確認平台和規模需求，再看功能特性，不要只看 benchmark。

#rag #vector-database #pinecone #weaviate #qdrant #cloudflare-vectorize