Groq Console:用 LPU 推論開源模型的開發者平台
Groq Console 是 Groq 自家 LPU 晶片的開發者入口,提供 OpenAI 相容 API、Playground、免費額度,主打把 Llama、Qwen、DeepSeek 等開源模型跑出市面上最快的 token/秒。
Groq Console 是 Groq 自家 LPU 晶片的開發者入口,提供 OpenAI 相容 API、Playground、免費額度,主打把 Llama、Qwen、DeepSeek 等開源模型跑出市面上最快的 token/秒。
goose 是由 Linux Foundation 旗下 AAIF 維護的開源 AI Agent,支援 15+ LLM 供應商、70+ MCP 擴充,用 Rust 打造桌面 App + CLI + API,定位是不鎖廠商、可自架的 Claude Code 替代方案。
在 Cloudflare Workers AI 上跑 LLM,gemma-3-12b-it 的繁體中文指令跟隨比 llama-3.1-8b-instruct 明顯更好;2026 年 Gemma 4 上線後多了 Vision、Function calling 與 256K context,視需求升級。
Qwen(通義千問)是阿里巴巴推出的開源 LLM 家族,以 Apache 2.0 授權、201 語言覆蓋和快速迭代聞名。最新的 Qwen3.6(2026/04)聚焦 Agentic Coding,27B Dense 版本在 SWE-bench 77.2%、Terminal-Bench 59.3%,與 Claude Opus 同級;新增 Thinking Preservation 讓 agent 跨輪保留推理脈絡。
Karpathy 在 2026 年提出 llm-wiki 模式,讓 LLM 主動維護 markdown wiki 而非每次從頭 RAG;目前已有 100+ 開源實作,從本機 CLI 到 serverless Telegram bot 各有差異。
OpenAI 2026/4/22 推出 Workspace Agents,以 Codex 為底、可長時間在雲端執行、能串 Slack/Salesforce/Google Drive,是 Custom GPT 的企業版後繼者。
用 Weaviate Query Agent + ColQwen 多向量模型,一個 prompt 在 36 小時內搭出生產等級的法律合約搜尋系統——這篇拆解它的架構邏輯、技術選擇,以及你真正需要注意的事。
Cloudflare 內部跑了 30 天 Multi-Agent Code Review,131K 次 Review、中位數 3 分鐘。這篇整理他們的架構,以及 Anthropic、GitHub、CodeRabbit、Greptile 等業界方案怎麼做同一件事。
OpenAI 詳解 Codex 的 agent loop 設計:prompt 如何建構、multi-turn 對話如何管理、prompt caching 如何避免成本爆炸,以及 context window 自動壓縮的實作。
OpenAI 把 Codex harness 包裝成 JSON-RPC over stdio 的 App Server,讓 VS Code、JetBrains、Web、桌面 App 都能共用同一套 agent loop,三個核心 primitive:Item、Turn、Thread。
OpenAI 內部團隊 5 個月、3 人、0 行手寫程式碼,用 Codex 交付了一個完整產品。這篇整理他們在 AGENTS.md 設計、repo-local 知識庫、架構強制執行、entropy 管理上的核心心得。
Agentic Engineering 不是讓 AI 寫更快的程式碼,而是讓軟體更快走完整個交付流程——透過多 agent 協作,壓縮跨團隊的協作摩擦。
Agent 的記憶不是一個插件,而是 harness 本身的一部分。選對記憶類型、估算資料量、再決定用什麼技術——最後,也要搞清楚你是否真的擁有那份記憶。
AI 模型審查自己的程式碼時會自我合理化,用三個不同 CLI 做獨立 review 可以有效捕捉盲點——這篇介紹背後的設計哲學與實際的工作流程模式。
Agentic AI 不只是 autocomplete,而是能自主執行多步驟任務的 AI 系統。這篇文章拆解 SDLC 的五大階段,說明每個階段能從哪裡切入、怎麼從 CLI 工具走到全流程自動化,以及目前最值得追蹤的外部資源。
Encyclopedia of Agentic Coding Patterns 收錄 190 個 pattern,幫你在 AI 代寫程式的時代做出正確的軟體決策——而這本書本身就是由 AI agent 自主撰寫和維護的。
GitHub Copilot Coding Agent 讓你把 Issue 指派給 Copilot,它在雲端沙箱裡自動開 branch、寫程式、跑 CI、開 PR。成功關鍵是設好 AGENTS.md,沒設定的話 agent 容易跑偏。適合定義清楚的中型任務,需 Pro+(每月 1,500 premium requests)或 Enterprise 方案。
一個六層確定性管線,從 URL 擷取到向量嵌入全自動處理,透過八維度評分系統在資料進 RAG 之前就篩掉垃圾。
Microsoft 開源的輕量工具,把 PDF、Office、圖片、音訊等格式統一轉成 Markdown,專門為 LLM pipeline 設計。
MCP 不會退場,但有效範圍比想像中窄。本機開發場景 CLI 和 raw API 幾乎都贏過 MCP;MCP 真正不可替代的,是「跨 agent 共享的本機工具層」這條窄縫。
不是每個人都該直接用 coding agent 改 code。AI Native 團隊要搞定 interface 規格、測試先行、monorepo、security guardrail、human-in-the-loop 與 token 預算管控,在 coding agent 上面再建一層 agent platform 並明確開發者角色轉型才是正途。
Autoreason 用競爭式多版本評估(A/B/AB + 盲測 Borda count)取代傳統的「批評→改寫」迴圈,解決 LLM 自我修正中的提示偏差、範疇蔓延和缺乏克制三大問題。
Vercel Labs 開源的 coding agent 參考實作。三層架構分離 web UI、agent workflow、sandbox VM,設計給想自建 Claude Code / Cursor Background Agent 的團隊當起手。
Claude Octopus 是一個 Claude Code plugin,能同時叫 Codex、Gemini、Copilot、Qwen、Ollama、Perplexity、OpenRouter 和 Claude 一起看同一份 code,用 75% 共識門檻找單模型的盲點。內建 32 個 persona、48 個 /octo:* slash commands、51 個 skill、以及 Dark Factory 全自動 spec-to-code 管線。
LLM Council 是 Andrej Karpathy 花一個週末做的本地 Web App,把一個問題同時丟給多個 LLM,再讓它們匿名互評,最後由 Chairman 模型綜合出一份答案。定位是讀書時比較模型用的小工具,99% vibe coded、不打算長期維護,但架構本身就是一份值得參考的 ensemble LLM 最小實作。
Claude Managed Agents 是 Anthropic 2026/04/08 推出的 beta 服務,提供 agent harness 加雲端容器沙箱,按 token 加 $0.08/session-hour 計費,適合長時間非同步任務,不想自己寫 agent loop 和跑沙箱的人值得看。
Agent Skills 是 Addy Osmani 開源的 19 個生產級工程技能,透過 /spec → /plan → /build → /test → /review → /ship 的指令驅動 AI 代理遵循資深工程師的開發紀律,而不是走捷徑。
Graphify 用 tree-sitter AST 提取程式碼結構,再用 LLM 語意分析文件與圖片,把整個專案壓縮成一張可查詢的知識圖譜。號稱每次查詢比讀原始檔案省 71.5 倍 token。
Claw Code 是用 Rust 從零重寫的 Claude Code CLI 替代品,48K 行程式碼、40 個工具、MIT 授權。最驚人的是整個專案在 5 天內由多個 AI Agent 協作完成,上線不到一週就突破 170K stars。
clawhip 是一個 Rust 寫的 daemon,專門把 AI coding agent 的事件(commit、PR、session 狀態)路由到 Discord / Slack,解決多 Agent 並行時「不知道誰在做什麼」的可觀測性問題。
Hermes Agent 是 Nous Research 開源的自我改進 AI 代理,具備持久記憶、技能學習、40+ 工具、多平台閘道,支援 200+ 模型供應商,是 OpenClaw 的正式繼承者。
notebooklm-py 透過逆向工程 Google 的 batchexecute RPC 協議,讓你用 Python / CLI / AI Agent 程式化操作 NotebookLM,包含音訊、影片、投影片、測驗等生成功能。
oh-my-claudecode(OMC)在 Claude Code 上加了 8 種協作模式、19 個專業 Agent、跨模型調度(Claude + Codex + Gemini),讓單人 CLI 工具變成多 Agent 開發平台。支援 Deep Interview 需求釐清、Smart Model Routing 省 30-50% token、rate limit 自動恢復。
oh-my-codex(OMX)不是取代 Codex CLI,而是在它上面加一層結構化工作流——從需求釐清、計畫產出到多 Agent 並行執行,用 4 個核心 Skill 把散亂的 prompt 對話變成可追蹤的開發流程。
oh-my-openagent(OmO)把 OpenCode 從單一 LLM 工具變成多模型 Agent 團隊——Opus 當主力、GPT-5.2 當架構師、Gemini 做前端、Sonnet 查文件,一個 ultrawork 關鍵字觸發全員並行。48K stars,UltraWorkers 生態系中最早建立多 Agent 編碼模式的專案。
香港大學 HKUDS 開源的 Agent Harness 框架,實作了工具呼叫、技能載入、記憶、權限、多代理協作等完整基礎設施,支援 Anthropic / OpenAI / GitHub Copilot 三種 API 格式。
GitHub 上已有 6,400+ 個 .claude/agents/*.md 檔案。我們拆解了 4 個代表性專案——ChemistryTimes(內容生產 pipeline)、claude-sub-agent(document-driven 開發流水線)、agentic(Temporal.io DAG 平行執行)、vs-copilot-multi-agent(Hook 強制記憶寫入)——加上 ruflo 的企業級 swarm 架構,歸納出 6 種設計模式和 5 個實戰趨勢。
矽谷一線公司各自獨立打造內部 AI coding agent,從 Slack 訊息到 merged PR 全程自動化。深入拆解 Stripe、Ramp、Coinbase、Spotify 四家的架構,再擴展到 Google、Meta、Amazon、Uber、Goldman Sachs、Walmart 等十多家公司的做法與指標。
Andrej Karpathy 提出用 LLM 編譯個人知識 wiki 的框架——收集原始資料、LLM 編譯成 .md wiki、對 wiki 做 Q&A、輸出歸檔回 wiki。本文比較三種實踐路線:Karpathy 的知識庫模式、社群的經驗庫模式、以及 quidproquo 的部落格模式。
拆解 Claude Code 的 18+ 種快取機制後發現:provider-level prompt cache 你做不了,但 embedding cache、tool result cache、entity cache 你不但做得了,效果還更好。附完整的 AgentCache 介面設計與 per-tool TTL 策略。
Claude Code 的 45 個 tool 中,每個 prompt() 都會根據用戶類型、feature flags、系統能力動態調整。將這個模式套用到 ReAct Agent,根據 orchestrator 模型能力、locale、可用 tools 三個維度動態生成 tool description,小模型自動補 few-shot,大模型省 token。
Claude Code 從 $20/mo Pro 到 $200/mo Max 20x,Opus 4.6 推理深度業界最強,Max 方案吃到飽定價讓重度使用者省下 90%+ 的 API 費用。
Cursor CLI 將 IDE 的 Agent 帶入終端,支援 interactive TUI 與 headless 模式、Plan/Ask/Agent 三種模式、Cloud Handoff 雲端接力、CI/CD 整合,$20-200/mo。
Gemini CLI 免費提供 60 req/min、1,000 req/day,含 Gemini 2.5 Pro 和 1M token context window。Google 開源專案,多數開發者完全不需要付費。
Kiro 免費方案含 50 credits,Auto 模式自動混合多模型省成本,Spec-Driven 開發流程將 vibe coding 升級為可追蹤的結構化開發,Agent Hooks 實現本地 CI/CD 自動化。
Codex 綁定 ChatGPT 訂閱($20-200/mo),GPT-5.4 + mini 自動路由是亮點,CLI 支援 Plan 模式與 API Key 模式雙軌計費。
OpenCode 是免費開源的 Go 語言 CLI agent,95K+ GitHub stars,支援 75+ 模型供應商含本地 Ollama,可用 Copilot/ChatGPT 帳號認證,session 中途切換模型不丟上下文。
比較 2026 年六大 Agent CLI 訂閱方案(Claude Code、Cursor CLI、Codex、Kiro、Gemini CLI、OpenCode),並研究多模型路由模式——簡單任務給便宜模型、複雜任務給強模型,實測可省 40-85% 成本。
比較 NVIDIA DGX Spark、Apple Mac Studio M4 Ultra、ASUS Ascent GX10、MSI AI Edge 等個人 AI 工作站,幫你找到適合的本地推論硬體。
透過多模型路由,將 70% 的簡單任務導向便宜模型,只讓 10-15% 的複雜任務使用旗艦模型,實測節省 40-85% 推論成本。本文介紹五個主要開源工具的架構與實作。
Agent CLI 不是更聰明的補全工具,而是能讀懂 codebase、執行多步驟任務、操作真實環境的 AI 代理。Claude Code、Codex CLI、Gemini CLI、OpenCode、Aider、Pi、Kiro、Amp、Cursor CLI... 工具越來越多,但底層共享一套設計邏輯——理解這套邏輯,才能真正用好它們。
按 GitHub Stars 排序,盤點 2026 年 15 個主流 AI Agent 框架的定位、特色與適用場景。不是排名,是地圖。
用 Claude Code 當 orchestrator,串接 Playwright 截圖、catbox.moe 圖床、Meta Graph API 發布、Telegram 通知,一句話完成 IG 輪播圖文的生成與發布。
llama.cpp 是目前最廣泛使用的本地 LLM 推論引擎,用純 C/C++ 實作,支援 CPU、Metal、CUDA、Vulkan 等多後端,搭配 GGUF 量化格式讓消費級硬體能跑數十億參數的模型。
TurboQuant+ 是 Google Research ICLR 2026 論文的開源實作,用 PolarQuant + QJL 兩階段量化壓縮 KV cache 達 3.8-6.4x,讓消費級硬體跑更大模型和更長上下文。
2026 年行動端 LLM 主力是 Gemma 3n、Qwen 3.5 Small、Llama 3.2、Phi-4-mini、Ministral 3 和 SmolLM3。3B 以下量化模型在 8GB RAM 手機上能跑到 30–50 tokens/sec,但 RAM、散熱和 context window 仍是硬限制。
2026 Q1 開源模型全面爆發:LLM 方面 GLM-5、Kimi K2.5、Qwen3.5 追上閉源;Embedding 和 Reranker 由 Qwen3 和 BGE 主導;語音有 Voxtral TTS 和 Whisper V3;圖像有 FLUX.2;影片有 Wan 2.2 追平 Sora。這篇是完整導覽地圖。
2025–2026 年,網站不只要給人看,還要給 AI 看。從 llms.txt、Schema Markup、GEO 到 RAG ingestion pipeline,這篇整理了讓你的網站變成 AI 可用資料來源的完整技術地圖。
Harness 不只是呼叫 LLM 的 wrapper。Tool Registry 管理工具的動態載入與選擇、Guard System 建立四層防護網、Checkpoint-Resume 讓長時間任務可以中斷恢復。這三個模式是生產級 Agent 系統的關鍵基礎設施。
Skill 是你手動呼叫的 prompt 模板,Subagent 是 Claude 自動 routing 的獨立 agent。看起來很像,但觸發方式、工具隔離、context 管理完全不同。
當 AI agent 能在幾分鐘內把 intent 變成 PR,軟體工程的瓶頸就從「規劃該做什麼」翻轉成「評估做出來的東西對不對」。Ticketing 時代的產物(sprint、story point、backlog grooming)正在壓縮歸零,取而代之的核心實踐是 review。
同一個模型在不同的 harness 設計下會產生截然不同的結果。Anthropic 用雙 Agent 架構、跨 session 狀態檔、GAN 式 generator-evaluator 迴圈,讓 Claude 能自主完成數小時的軟體開發任務。
Google 整理了八種 multi-agent 設計模式:從最簡單的 Sequential Pipeline 到可組合的 Composite Pattern。不是越複雜越好——選對模式比堆 agent 重要。
AI 工程經歷三個階段:Prompt Engineering(寫好指令)→ Context Engineering(餵對資訊)→ Harness Engineering(設計整個工作環境)。每一次演化不是取代前者,而是在更高的抽象層級上操作。
一次 agent 執行:收到訊息 → context 組裝 → 模型推理 → tool 執行 → 串流回覆 → 持久化。每個 session 串行、支援 5 種佇列模式。
OpenClaw 的 agent 有自己的「家」(Workspace),靠 AGENTS.md、SOUL.md 等 bootstrap 檔案定義人格和行為,System Prompt 每次動態組裝。
API Key 最穩、OAuth 用 PKCE + token sink 模式、SecretRef 支援 env/file/exec 三種來源、Trusted Proxy 可以委託 reverse proxy 做認證。
Heartbeat 定期巡檢(30 分鐘批次),Cron 精確排程(支援隔離 session 和模型覆寫),Webhook 接收外部事件觸發 agent。
Standing Orders 給 agent 永久授權執行定義好的程式——有明確的範圍、觸發條件、approval gate 和升級規則,搭配 Cron 做時間控制。
Slack 有最完整的企業功能(native streaming、slash commands),Teams 需 Azure Bot 設定,Matrix 支援 E2EE 加密。
WhatsApp 用 QR 配對 + Baileys、Telegram 用 Bot Token 最快上手、Discord 支援 guild/thread/button 互動元件。
Signal 用 signal-cli 注重隱私、iMessage 推薦走 BlueBubbles、LINE 用 webhook、IRC/Nostr/Twitch 各有特色。
OpenClaw 支援 24+ 頻道同時運行,用 Pairing 控制誰能聊、用 Group Policy 控制群組行為、用 Routing 決定訊息送到哪個 agent。
openclaw.json 用 JSON5 格式,嚴格 schema 驗證,支援 hybrid hot reload(安全變更即時生效,關鍵變更自動重啟)。
Gateway 預設只綁 loopback,遠端存取用 SSH tunnel 或 Tailscale Serve/Funnel,多 Gateway 可以分散負載。
OpenClaw 支援部署到 9 個雲平台、K8s、Ansible 自動化佈建,最低每月 $5 就能跑 24/7 Gateway。
OpenClaw 提供 6 種本機安裝方式:installer script、npm、Docker、Podman、Nix、Bun,加上 Raspberry Pi 部署和 source 編譯。
OpenClaw 內建 Auth 輪替 + Model Fallback 兩階段容錯,加上 Prompt Caching 省錢和完整的 Token 追蹤機制。
OpenClaw 支援 35+ 模型供應商,最低需求是模型支援 tool use + streaming,內建 auth 輪替和 model failover 機制。
除了 Anthropic/OpenAI/Google 三大家,OpenClaw 還支援 30+ 供應商,從 DeepSeek 到本地 Ollama 都有。
OpenClaw 支援在一個 Gateway 內跑多個隔離 agent,透過 binding 路由訊息,還能用 Delegate 架構讓 AI 以代理人身份行動。
Node 是 Gateway 的周邊裝置——iOS/Android 提供相機/位置/通知,macOS 提供 Canvas/system.run,Node Host 讓遠端主機跑 exec。
OpenClaw 有 200+ 份文件,這篇幫你搞懂全貌、知道每塊在講什麼、依你的角色決定從哪讀起。
Pi 是 OpenClaw 內嵌的 coding agent runtime,OpenClaw 是 Pi 的 Gateway 殼。設定參考覆蓋 16 個頂層區塊、335 個文件。
OpenClaw 在 macOS 有選單列 app、Linux 用 systemd 跑服務、Windows 建議走 WSL2。三個平台的差異與注意事項。
OpenClaw 的 iOS 和 Android app 不是 Gateway,而是 Node——讓手機的相機、螢幕、位置、語音成為 AI agent 的感官延伸。
Plugin 用 TypeScript ESM 開發,支援 12 種能力註冊(頻道/模型/工具/TTS/圖片等),發布到 ClawHub 或 npm。
OpenClaw 沙箱有三層控制:Sandbox 決定在哪跑(Docker/SSH/OpenShell)、Tool Policy 決定能用什麼工具、Elevated 是 exec 的主機逃生門。
OpenClaw 的 session 支援 4 種 DM 隔離層級,Memory 是 Markdown 檔案,Compaction 在 context 快滿時自動摘要壓縮。
OpenClaw 用 MITRE ATLAS 框架分析 AI 系統威脅,有三個 Critical 風險(prompt injection、惡意 skill、憑證竊取),並用 TLA+ 形式驗證安全屬性。
OpenClaw 的瀏覽器用 managed profile 隔離、支援遠端 CDP(Browserless/Browserbase)、Deep Research 結合搜尋和瀏覽做多步驟研究。
Exec 支援前景/背景/PTY 執行 + 三種安全等級(deny/allowlist/full),Thinking 有 7 個層級(off 到 adaptive),Slash Commands 分指令和 directive 兩類。
Skills 是 AgentSkills 相容的 SKILL.md 資料夾,有 6 層載入優先順序。ClawHub 是公開市場。Sub-agent 最多巢狀 5 層。
TTS 支援 ElevenLabs/Microsoft/OpenAI 三家,PDF 有 native 和 extraction 兩種模式,Lobster 是確定性工作流 runtime,MCP 支援外部工具擴展。
openclaw doctor 是一站式診斷工具,openclaw sandbox explain 排查沙箱問題,openclaw channels status --probe 檢查頻道連線。
Control UI 是瀏覽器 dashboard(http://127.0.0.1:18789),TUI 是終端互動介面,Web Chat 是 WebSocket 即時聊天。
模型是 CPU,harness 是作業系統,agent 是應用程式。模型能力再強,沒有好的 harness 就只是 demo。Phil Schmid 認為 harness 是 2026 年 AI 工程最關鍵的基礎設施。
LangGraph 把 LLM 工作流程建模成有向圖,解決多輪迭代、條件分支、平行執行這些用線性 pipeline 做很痛的問題。
GLM-5 是智譜 AI(Z.ai)於 2026 年 2 月發布的 744B MoE 開源模型,完全在華為昇騰晶片上訓練,以 MIT 授權開源。它是目前開源模型中排名最高的,在 Humanity's Last Exam 等基準上甚至超越 Claude 和 GPT-5,而 API 定價只有它們的 1/5 到 1/8。
Kimi 是中國 AI 新創月之暗面(Moonshot AI)推出的大型語言模型,以超長 context window、開源策略和極具競爭力的定價聞名。從 2023 年的 200K context 到 2026 年的 K2.5 Agent Swarm,Kimi 已成為全球 AI 市場不可忽視的力量。
Langfuse 是目前最成熟的開源 LLM Observability 平台。這篇從 Tracing、Prompt 管理、評估、Dataset 四個核心功能切入,帶你搞清楚它在實際專案中怎麼用。
Context Engineering 是 2025 年取代 Prompt Engineering 的核心概念:重點不再是「怎麼問」,而是「給什麼資訊」。把對的資訊在對的時機送進 context window,比換更強的模型更有效。這篇整理了定義、四大策略、實作技巧和常見失敗模式。
每個 AI 工具都有自己的呼叫格式,整合成本高。MCP(Model Context Protocol)是 Anthropic 提出的開放標準,統一 AI Agent 與外部工具、資料源的通訊協定,讓工具可以跨 Agent 重用。
Claude 官方架構師認證的完整備考指南:五大領域重點、六大考試情境、常見反模式與實際演練建議。
RAG 是唯讀的。Agent Memory 讓 AI 不只能讀,還能寫入和持久化資訊。三種記憶類型:Procedural(行為模式)、Episodic(時間事件)、Semantic(事實知識),構成完整的認知記憶系統。
AI Agent 不是一個技術,是一整個架構體系。本文是系統化導航:從 Agent 三支柱(Context/Cognition/Action)出發,穿過 AI 工程三階段演化(Prompt → Context → Harness),到八種 Multi-Agent 設計模式和生產級 Harness 基礎設施。每個主題都有對應專文深入。
AI Agent 不是黑盒子——它由三層構成:知道什麼(Context)、怎麼想(Cognition)、能做什麼(Action)。搞清楚這三層,才能理解 agent 為什麼有時聰明、有時失控,以及怎麼設計一個真正好用的 agent 系統。
單一 RAG Agent 處理所有查詢會遇到知識邊界和效能瓶頸。Multi-Agent RAG 把檢索任務分派給多個專業化 Agent,每個 Agent 有自己的知識庫和檢索策略,由中央 Orchestrator 協調合併結果。
傳統 RAG 把文件切成小 chunks 再檢索,但這造成資訊碎片化。LongRAG 利用 100K+ token 的長上下文模型,檢索更大的文件區段(整個章節甚至整份文件),減少碎片化同時保持檢索效率。
Speculative RAG 用小型專家模型從不同文件子集平行生成多個答案草稿,再由大型模型一次驗證選出最佳答案。準確度提升最高 12.97%,延遲降低最高 50.83%。
Ollama 把 llama.cpp 包裝成 Docker 風格的 CLI + REST API,一行指令就能在本地跑 LLM。這篇從核心概念、安裝、API、硬體需求到 Modelfile 自訂,完整介紹這個工具適合什麼、不適合什麼。
RAG 已經從簡單的「搜尋+生成」演化成涵蓋十個世代的技術體系。本文是系統化導航:從 Naive RAG 到 Multi-Agent RAG 的十代演化、檢索策略、Chunking、Embedding、Reranking、評估框架、可觀測性、成本優化。每個主題都有對應專文深入。
vLLM 用 PagedAttention 解決 KV cache 記憶體浪費問題,搭配 continuous batching 和 prefix caching,成為目前最主流的開源 LLM 推論引擎。
聊天機器人不只是接 API。對話狀態管理、記憶機制、Streaming、Guardrails、可觀測性、技術棧選型,每一層都影響使用者體驗。
好的 Prompt 不是一次寫出來的,而是迭代出來的。從最簡單的 prompt 開始,用真實 case 測試,分類錯誤類型,針對性修改。本文涵蓋 System Prompt 三段式結構、推理框架選擇、Few-shot 最佳化、Token 預算管理和六個常見錯誤。
複雜多跳問題,RAG 一次搜尋不夠。Agentic RAG 讓 LLM 評估結果是否充分,不夠就改寫查詢再搜一次,形成 ReAct 迴圈。
Embedding 模型的選擇直接影響 RAG 的搜尋品質。BGE-M3 的多語言訓練、1024 維向量、同系列 Reranker,是繁中 RAG 的實用選擇。
切太大找不準,切太小失去上下文。Chunking 是 RAG 最被低估的環節,策略選錯,後面再多優化都是白費。
Bi-Encoder 太粗糙,Cross-Encoder 太慢,ColBERT 的 Late Interaction 在兩者之間找到平衡:token 級別的相互比較,但可以預先計算文件向量。
文件切塊後,每個 chunk 失去了它在原文件中的上下文。Contextual Retrieval 在索引時為每個 chunk 注入文件級別摘要,解決 chunk 孤島問題。
過濾條件太嚴格導致零結果?CRAG 自動放寬過濾條件重試,比讓 LLM 用通用知識瞎猜好多了。
向量搜尋的相似度分數不等於相關性,Cross-Encoder 用成對比較重新排序,把真正相關的文件推上來。
向量搜尋找相似,圖搜尋走關係。當問題需要跨多個實體的推理(岩場→路線→完攀者→難度分布),GraphRAG 比標準 RAG 更有優勢。
向量搜尋抓語義,BM25 抓關鍵字,兩者用 RRF 融合才能同時照顧模糊查詢和精確術語。
用 LLM 先生成一份「理想答案」,再把這份假設文件 embed 去搜尋,比直接搜尋查詢本身效果更好。
每次對話後,異步提取用戶可能的偏好和程度,下次查詢時自動個性化搜尋條件,不需要使用者手動設定。
只看相關性會讓結果都是同一條路線的不同描述,MMR 在相關性和多樣性之間取平衡,再疊加熱門度讓結果更實用。
RAG 不是固定的三步流程,而是一組可以動態啟用、跳過、重排的步驟。Pipeline as Code 讓系統在不重新部署的情況下調整行為。
複雜查詢只用一個向量搜尋容易漏掉相關文件,讓 LLM 改寫成 3-5 個子查詢並行搜尋,召回率顯著提升。
攀岩路線有大量圖片資訊(路線圖、岩壁照片),純文字 RAG 遺漏了這些。Multimodal RAG 讓圖片也能被搜尋和理解。
Naive RAG 夠用但有很多問題,Advanced RAG 針對性修補,Modular RAG 重新架構讓系統可組合、可配置。了解三個世代,才能理解現代 RAG 系統為什麼長這樣。
對複雜問題,先讓 LLM 規劃出需要哪些資訊、分幾步取得,再按計畫執行,比邊搜邊想更系統化。
不是所有問題都需要 RAG。用 LLM 先分類查詢類型,再決定執行路徑,節省成本又提升準確度。
「加了 Cross-Encoder 之後感覺好多了」不是科學的評估。A/B 測試讓你知道改動是否真的有效,效果多大,在哪類查詢上有效。
RAG 系統需要資料才能回答問題,但一開始就沒有資料。冷啟動策略決定了系統從空到可用的路徑。
RAG 系統的成本來自 LLM token、Embedding API、向量搜尋。每個環節都有可以壓成本的地方,但要確認優化沒有犧牲太多品質。
RAG 系統的品質很難用直覺評估。RAGAS、DeepEval、TruLens 提供了系統化的指標框架,讓你知道是哪個環節出問題。
RAG 系統出問題,90% 的情況是這 10 種之一。先識別是哪種失敗模式,再找對應的解法,比盲目優化有效很多。
RAG 系統面對的攻擊不只是技術層面的,Prompt Injection 和 Jailbreak 是真實威脅。輸入輸出都需要獨立的防護層。
自己寫 trace 夠用,但開源工具讓你少做很多事。Langfuse、Phoenix、LangSmith 各有定位,選哪個取決於你對自架、開源、整合複雜度的取捨。
RAG 系統最難的不是建起來,是搞清楚為什麼這次回答不好。Pipeline Tracing 把每個步驟的決策和數據記下來,讓除錯有跡可循。
搜尋找到了正確的文件,但 LLM 的回答還是不好——很多時候問題在 Prompt 設計。System prompt 結構、context 排版、指令語言都會影響輸出品質。
LLM 生成需要 3-5 秒,等全部生成完再顯示體驗很差。SSE 讓 token 一邊生成一邊推送,首個字元出現時間從 5 秒縮到 1 秒以內。
只限制請求次數不夠,一個超長的查詢可能消耗掉十個普通查詢的 token。雙重配額(請求數 + token 數)才能真正控制成本。
RAG 和 Fine-tuning 解決的是不同問題。RAG 給模型新知識,Fine-tuning 改變模型的行為風格。大多數情況是兩者都用,而不是選一個。
BM25、向量搜尋、HyDE、Multi-Query 各出一份結果,怎麼合理地合成一份?RRF 用名次而不用分數,規避了跨系統分數無法比較的根本問題。
用另一個 LLM 評估回答的準確度和品質,分數太低就重新生成,並自動加上適當的免責聲明。
快取不只能比對完全一樣的查詢,語義相近的問題也能命中快取,省下整個 RAG pipeline 的執行。
BM25 只認識查詢裡出現的詞,SPLADE 能推斷相關詞彙並加入搜尋,在保持關鍵字搜尋精確性的同時獲得部分語義能力。
「我今年完攀幾條」這種問題,RAG 語義搜尋永遠不如直接查資料庫。讓 LLM 識別意圖、提取參數,執行預定義 SQL 模板。
向量資料庫的選型比 LLM 選型更受部署平台限制。先確認平台和規模需求,再看功能特性,不要只看 benchmark。