Skip to content

#ab-testing

2 篇文章

ai deep-dive 2026年6月4日

調整 agent 之後，怎麼嚴謹比較前後差異：從 golden set 到統計檢定

即使 temperature=0，LLM 輸出實測仍可能抖動 15%。要嚴謹比較 agent 調整前後，得靠凍結 golden set、每題跑 ≥3 次取平均、LLM-as-judge 盲評（pairwise 偏好翻轉率高達 35%）與配對統計檢定，而不是前後各問一遍看感覺。

#evaluation #rag #llm-judge #ab-testing #ai-agent #llm

ai guide 2026年3月12日

RAG A/B 測試：怎麼科學地比較兩個 Pipeline 配置

「加了 Cross-Encoder 之後感覺好多了」不是科學的評估。A/B 測試讓你知道改動是否真的有效，效果多大，在哪類查詢上有效。

#rag #ab-testing #experimentation #metrics #pipeline