Skip to content
所有標籤

#evaluation

3 篇文章
ai guide

Langfuse 完整指南:LLM 應用的可觀測性從零開始

Langfuse 是目前最成熟的開源 LLM Observability 平台。這篇從 Tracing、Prompt 管理、評估、Dataset 四個核心功能切入,帶你搞清楚它在實際專案中怎麼用。

ai guide

RAG 系統模式完整指南:從 Naive 到 Multi-Agent 的十代演化與實戰導航

RAG 已經從簡單的「搜尋+生成」演化成涵蓋十個世代的技術體系。本文是系統化導航:從 Naive RAG 到 Multi-Agent RAG 的十代演化、檢索策略、Chunking、Embedding、Reranking、評估框架、可觀測性、成本優化。每個主題都有對應專文深入。

ai guide

RAG 評估框架:RAGAS、DeepEval、TruLens 怎麼用

RAG 系統的品質很難用直覺評估。RAGAS、DeepEval、TruLens 提供了系統化的指標框架,讓你知道是哪個環節出問題。