#evaluation

4 篇文章

ai deep-dive 2026年6月4日

調整 agent 之後，怎麼嚴謹比較前後差異：從 golden set 到統計檢定

即使 temperature=0，LLM 輸出實測仍可能抖動 15%。要嚴謹比較 agent 調整前後，得靠凍結 golden set、每題跑 ≥3 次取平均、LLM-as-judge 盲評（pairwise 偏好翻轉率高達 35%）與配對統計檢定，而不是前後各問一遍看感覺。

ai guide 2026年3月26日

Langfuse 是目前最成熟的開源 LLM Observability 平台。這篇從 Tracing、Prompt 管理、評估、Dataset 四個核心功能切入，帶你搞清楚它在實際專案中怎麼用。

RAG 已經從簡單的「搜尋+生成」演化成涵蓋十個世代的技術體系。本文是系統化導航：從 Naive RAG 到 Multi-Agent RAG 的十代演化、檢索策略、Chunking、Embedding、Reranking、評估框架、可觀測性、成本優化。每個主題都有對應專文深入。

ai guide 2026年3月12日

RAG 系統的品質很難用直覺評估。RAGAS、DeepEval、TruLens 提供了系統化的指標框架，讓你知道是哪個環節出問題。