Text / Image to Lottie:AI 動畫生成工具全景導讀
從 CLI 工具 kin3o 到 CVPR 2026 論文 OmniLottie,盤點把文字和圖片轉成 Lottie 動畫的開源路徑,附效能基準與選型建議。
從 CLI 工具 kin3o 到 CVPR 2026 論文 OmniLottie,盤點把文字和圖片轉成 Lottie 動畫的開源路徑,附效能基準與選型建議。
MUSE-Autoskill(2026)提出五階段 skill 生命週期框架,自創 skill 在 SkillsBench 達 60.35%(+7.16%),成功生成 skill 的任務上更達 87.94%,超越人工撰寫上限。本文整合六篇 arXiv 論文,梳理 skill evolution 研究全景。
即使 temperature=0,LLM 輸出實測仍可能抖動 15%。要嚴謹比較 agent 調整前後,得靠凍結 golden set、每題跑 ≥3 次取平均、LLM-as-judge 盲評(pairwise 偏好翻轉率高達 35%)與配對統計檢定,而不是前後各問一遍看感覺。
業界已收斂到用 OpenTelemetry GenAI 語義約定把每個 LLM call / tool call 變成 span;偵測三大故障再分三條線:faithfulness + semantic entropy 抓幻覺、framework 層 symbolic guardrail 擋 tool misuse、max steps + action hash 去重防無限迴圈,最後全部掛上 Final / Trajectory / Single-step 三層評估。
資源受限下的 agent 決策是 bounded rationality 的復活:Rational Metareasoning 用 VOC 獎勵省 20–37% token、BATS 證明沒有 budget awareness 加預算也沒用、FrugalGPT cascade 最高省 98% 成本、Speculative Actions 降 20% 延遲。三約束最後收斂成一條 Pareto 曲線,主線是「從人手調旋鈕走向模型自己做資源理性決策」。
三個聽起來不同的 agent 安全問題——tool output 注入、信任邊界、惡意 agent——根是同一個:LLM 把指令與資料攤平成同一條 token 串流,架構上無法區分。理解這條主線,就能看懂從 EchoLeak(CVE-2025-32711,zero-click)到 Morris II AI 蠕蟲的所有攻擊,以及為什麼「把模型調乖」沒用、只有架構約束(六大設計模式、CaMeL)有用。
傳統 RAG 是固定管線「先查再答」;Agentic RAG 把檢索拆成三層決策:何時檢索(FLARE 用 token 機率、Adaptive-RAG 用複雜度分類器)、檢索什麼(HyDE / RAG-Fusion / 分解 / Step-back)、如何整合(RRF k=60 → cross-encoder rerank → 壓縮,Anthropic 實測失敗率 −67%)。關鍵反直覺:不必要的檢索會傷品質,「決定不查」是一級能力。
自動 prompt 優化(APO)從 APE/OPRO 演進到 GEPA:用語言反思取代稀疏 reward,少 4–35 倍 rollouts 贏過 GRPO 約 6pp。另一邊,tool description 是被忽略的 prompt——小改措辭能讓工具選用率變 10 倍,Anthropic 實測讓 Claude 自我改寫 tool description 勝過人類專家手寫。兩條線正在合流:eval-driven 的自動優化吃掉手工調 prompt。
自主研究 agent = 四個可控環節:規劃(拆子問題)、檢索迴圈(search→read→反思 gap→再 search)、證據仲裁(≥2 獨立來源、衝突分型處理)、可驗證輸出(句級引用 + 獨立查核 pass)。兩條路線:訓練派用 RL 端到端學會何時搜(Search-R1 +41%),編排派用 orchestrator-worker 分工(Anthropic 內部評測 +90.2%,代價 ~15× token)。
從觀察行為反推他者的信念/目標/意圖,學界叫 Machine Theory of Mind。三條血脈:符號 BDI、貝氏逆向規劃、深度學習 ToMnet。LLM 時代最大爭議是 ToMBench 上 GPT-4 仍落後人類 >10 分——高分到底是真推理還是統計捷徑。
每步 99% 準確率、跑 100 步,無錯完成率只剩 36%——錯誤複利是結構問題,不是 prompt 能調掉的。分散式系統的 supervisor tree、bulkhead、circuit breaker、saga、durable execution 幾乎可一對一搬進 agent 編排;但 LLM 多了一種傳統系統沒有的故障——不會 crash 的語意錯誤,得靠 Inspector agent(recover 96.4%)與冗餘投票(MAKER 百萬步零錯誤)補上。
Cosine similarity 和 relevance 在一整類情境系統性背離:否定詞(NevIR 上多數 IR 模型 ≤ 隨機)、精確識別碼、數值門檻、邏輯組合(SoTA 模型在 LIMIT 上 recall@100 < 20)——其中一部分是單向量範式的理論上限,換大模型無解。補救順序:hybrid BM25 → reranker(Anthropic 實測 −67%)→ 上游 metadata 路由 → 領域微調 / multi-vector。
工具一多,選擇準確率不是緩降是崩塌:4→51 個工具從 43% 掉到 2%、10→100+ 個從 78% 掉到 13.62%。根治解法是別一次塞全部——Anthropic Tool Search Tool 用 defer loading + 檢索砍 85% token,Opus 4.5 準確率 79.5%→88.1%。description 品質的效益是條件式的:簡單場景沒差,多工具串接場景 correctness 44%→50%。
繁中 RAG 檢索失敗是三層疊加:embedding 的粒度缺陷(BGE/GTE 從 0.1B 到 7B 都在「炸鸡」這種簡單 query 上排錯)、簡中/英文語料主導造成的在地詞彙偏移(保費、不保事項對齊不可靠)、MTEB 中文榜是簡體導致選型訊號失真。修復是架構性的:OpenCC 正規化 → hybrid + jieba 斷詞 → reranker → 最後才是在地微調——而且一切前提是先建繁中專屬 eval set。
arXiv 不做 peer review,約 2% 投稿被拒。判斷品質靠外部信號:頂會收錄 > 機構 + 開源復現 > 引用品質。附 20 項實戰 checklist 和 2026 年工具箱(PWC 已關閉)。
LLM agent 的難點不是把 function calling、skill、code interpreter、文件工具各自做出來,而是把它們組成一個會選工具、會寫程式、會拆任務、會驗證結果、又不會被 prompt injection 打穿的系統。這篇把代表論文整理成六個工程決策:function calling 可靠度、tool/skill selection、code-as-action、多步 planning、skill 系統、安全與文件生成。
讀論文是兩個問題疊在一起:方法論(Keshav 三遍閱讀法,5-10 分/1 小時/4-5 小時)決定怎麼讀,工具(arXiv HTML、alphaXiv、NotebookLM、Connected Papers、Zotero)負責縮短每一遍的時間。AI 負責降低理解門檻,判斷對錯永遠留給人。
把 tool description 從軟建議改成硬規則(白名單 + 後果說明),LLM 亂選 tool 的問題消失了;另外加 skip_signal=True 修掉 vector store 雙重 indexing。
個人專案、玩具 demo、做 RAG 原型,不想第一步就掏卡。整理 2026/05 還在運作的 40+ 家 LLM inference 服務商,按免費資源「是持續補充還是一次性」分梯,標註綁卡需求、模型清單、付費起價,數字全部從官方 pricing 頁驗證。中國原廠含智谱 GLM(永久免費)、豆包(每日 200 萬 tokens)、Kimi、百煉、Ollama 本地跑法一併收錄。
PageIndex 不切 chunk、不做 embedding、不存向量,靠 LLM 推理一份 LLM 自己寫的目錄樹,在 FinanceBench 拿到 98.7%(GPT-4o 直讀只有 31%)。它解的不是向量 RAG 的同一個問題——是『在一份結構清楚的厚文件裡找對的那一節』。
Groq Console 是 Groq 自家 LPU 晶片的開發者入口,提供 OpenAI 相容 API、Playground、免費額度,主打把 Llama、Qwen、DeepSeek 等開源模型跑出市面上最快的 token/秒。
在 Cloudflare Workers AI 上跑 LLM,gemma-3-12b-it 的繁體中文指令跟隨比 llama-3.1-8b-instruct 明顯更好;2026 年 Gemma 4 上線後多了 Vision、Function calling 與 256K context,視需求升級。
Qwen(通義千問)是阿里巴巴推出的開源 LLM 家族,以 Apache 2.0 授權、201 語言覆蓋和快速迭代聞名。最新的 Qwen3.6(2026/04)聚焦 Agentic Coding,27B Dense 版本在 SWE-bench 77.2%、Terminal-Bench 59.3%,與 Claude Opus 同級;新增 Thinking Preservation 讓 agent 跨輪保留推理脈絡。
AEO/GEO 工具不是單一類別,而是三個面向:輸入面(網站有沒有準備好給 AI 讀)、流量面(AI bot 實際爬了多少)、輸出面(品牌在答案裡怎麼被提到)。這篇把三面向、從開源自架到商業 SaaS 的工具一次攤開。
Encyclopedia of Agentic Coding Patterns 收錄 190 個 pattern,幫你在 AI 代寫程式的時代做出正確的軟體決策——而這本書本身就是由 AI agent 自主撰寫和維護的。
Microsoft 開源的輕量工具,把 PDF、Office、圖片、音訊等格式統一轉成 Markdown,專門為 LLM pipeline 設計。
Autoreason 用競爭式多版本評估(A/B/AB + 盲測 Borda count)取代傳統的「批評→改寫」迴圈,解決 LLM 自我修正中的提示偏差、範疇蔓延和缺乏克制三大問題。
比較 NVIDIA DGX Spark、Apple Mac Studio M4 Ultra、ASUS Ascent GX10、MSI AI Edge 等個人 AI 工作站,幫你找到適合的本地推論硬體。
NVIDIA DGX Spark 搭載 GB10 Grace Blackwell Superchip,128GB 統一記憶體,提供 1 petaFLOP FP4 算力,售價約 $3,999 美元起。適合開發者在本地跑 200B 參數模型、fine-tune 70B 模型,是目前最容易入手的 NVIDIA AI 開發平台。
2026 Q1 開源模型全面爆發:LLM 方面 GLM-5、Kimi K2.5、Qwen3.5 追上閉源;Embedding 和 Reranker 由 Qwen3 和 BGE 主導;語音有 Voxtral TTS 和 Whisper V3;圖像有 FLUX.2;影片有 Wan 2.2 追平 Sora。這篇是完整導覽地圖。
OpenClaw 支援 35+ 模型供應商,最低需求是模型支援 tool use + streaming,內建 auth 輪替和 model failover 機制。
GLM-5 是智譜 AI(Z.ai)於 2026 年 2 月發布的 744B MoE 開源模型,完全在華為昇騰晶片上訓練,以 MIT 授權開源。它是目前開源模型中排名最高的,在 Humanity's Last Exam 等基準上甚至超越 Claude 和 GPT-5,而 API 定價只有它們的 1/5 到 1/8。
Kimi 是中國 AI 新創月之暗面(Moonshot AI)推出的大型語言模型,以超長 context window、開源策略和極具競爭力的定價聞名。從 2023 年的 200K context 到 2026 年的 K2.5 Agent Swarm,Kimi 已成為全球 AI 市場不可忽視的力量。
Langfuse 是目前最成熟的開源 LLM Observability 平台。這篇從 Tracing、Prompt 管理、評估、Dataset 四個核心功能切入,帶你搞清楚它在實際專案中怎麼用。
AI Agent 不是黑盒子——它由三層構成:知道什麼(Context)、怎麼想(Cognition)、能做什麼(Action)。搞清楚這三層,才能理解 agent 為什麼有時聰明、有時失控,以及怎麼設計一個真正好用的 agent 系統。
Ollama 把 llama.cpp 包裝成 Docker 風格的 CLI + REST API,一行指令就能在本地跑 LLM。這篇從核心概念、安裝、API、硬體需求到 Modelfile 自訂,完整介紹這個工具適合什麼、不適合什麼。
好的 Prompt 不是一次寫出來的,而是迭代出來的。從最簡單的 prompt 開始,用真實 case 測試,分類錯誤類型,針對性修改。本文涵蓋 System Prompt 三段式結構、推理框架選擇、Few-shot 最佳化、Token 預算管理和六個常見錯誤。
不是所有問題都需要 RAG。用 LLM 先分類查詢類型,再決定執行路徑,節省成本又提升準確度。
RAG 系統面對的攻擊不只是技術層面的,Prompt Injection 和 Jailbreak 是真實威脅。輸入輸出都需要獨立的防護層。
搜尋找到了正確的文件,但 LLM 的回答還是不好——很多時候問題在 Prompt 設計。System prompt 結構、context 排版、指令語言都會影響輸出品質。
RAG 和 Fine-tuning 解決的是不同問題。RAG 給模型新知識,Fine-tuning 改變模型的行為風格。大多數情況是兩者都用,而不是選一個。
用 Cloudflare Workers AI(gemma-3-12b-it + bge-m3)打造可動態組裝的 RAG pipeline,14 個基礎 step + 6 個 LangGraph 專屬節點,三種策略圖(Baseline / Agentic / Plan-Execute)動態切換。