Skip to content

#llm-inference

3 篇文章

ai guide 2026年4月1日

llama.cpp — 從純 C++ 到消費級硬體上的 LLM 推論引擎

llama.cpp 是目前最廣泛使用的本地 LLM 推論引擎，用純 C/C++ 實作，支援 CPU、Metal、CUDA、Vulkan 等多後端，搭配 GGUF 量化格式讓消費級硬體能跑數十億參數的模型。

#llama-cpp #gguf #quantization #llm-inference #apple-silicon #metal #cuda #local-llm

ai guide 2026年4月1日

TurboQuant+ — 用兩階段量化把 KV Cache 壓到 2-bit，讓 MacBook 跑 100B 模型

TurboQuant+ 是 Google Research ICLR 2026 論文的開源實作，用 PolarQuant + QJL 兩階段量化壓縮 KV cache 達 3.8-6.4x，讓消費級硬體跑更大模型和更長上下文。

#turboquant #kv-cache #quantization #llm-inference #llama-cpp #apple-silicon

ai guide 2026年3月14日

vLLM — 從 PagedAttention 到生產級 LLM 推論引擎

vLLM 用 PagedAttention 解決 KV cache 記憶體浪費問題，搭配 continuous batching 和 prefix caching，成為目前最主流的開源 LLM 推論引擎。

#vllm #llm-inference #pagedattention #model-serving #gpu