ai guide 2026年3月15日 Speculative RAG:用小模型平行打草稿,大模型一次驗證 Speculative RAG 用小型專家模型從不同文件子集平行生成多個答案草稿,再由大型模型一次驗證選出最佳答案。準確度提升最高 12.97%,延遲降低最高 50.83%。 #rag#speculative-rag#dual-model#latency-optimization#accuracy