Skip to content
所有標籤

#metrics

2 篇文章
ai guide

RAG A/B 測試:怎麼科學地比較兩個 Pipeline 配置

「加了 Cross-Encoder 之後感覺好多了」不是科學的評估。A/B 測試讓你知道改動是否真的有效,效果多大,在哪類查詢上有效。

ai guide

RAG 評估框架:RAGAS、DeepEval、TruLens 怎麼用

RAG 系統的品質很難用直覺評估。RAGAS、DeepEval、TruLens 提供了系統化的指標框架,讓你知道是哪個環節出問題。