ai guide 2026年4月1日 llama.cpp — 從純 C++ 到消費級硬體上的 LLM 推論引擎 llama.cpp 是目前最廣泛使用的本地 LLM 推論引擎,用純 C/C++ 實作,支援 CPU、Metal、CUDA、Vulkan 等多後端,搭配 GGUF 量化格式讓消費級硬體能跑數十億參數的模型。 #llama-cpp#gguf#quantization#llm-inference#apple-silicon#metal#cuda#local-llm