#latency-optimization — quidproquo

ai guide Mar 15, 2026

Speculative RAG: Small Models Draft in Parallel, Large Model Verifies at Once

Speculative RAG uses small specialist models to generate multiple answer drafts from different document subsets in parallel, then a large model verifies and selects the best answer in one pass. Accuracy improves up to 12.97%, latency drops up to 50.83%.

#rag #speculative-rag #dual-model #latency-optimization #accuracy