#metal — quidproquo

ai guide 2026年4月1日

llama.cpp — 從純 C++ 到消費級硬體上的 LLM 推論引擎

llama.cpp 是目前最廣泛使用的本地 LLM 推論引擎，用純 C/C++ 實作，支援 CPU、Metal、CUDA、Vulkan 等多後端，搭配 GGUF 量化格式讓消費級硬體能跑數十億參數的模型。