Skip to content
所有標籤

#model-serving

1 篇文章
ai guide

vLLM — 從 PagedAttention 到生產級 LLM 推論引擎

vLLM 用 PagedAttention 解決 KV cache 記憶體浪費問題,搭配 continuous batching 和 prefix caching,成為目前最主流的開源 LLM 推論引擎。