Skip to content

#llama-cpp

3 篇文章

ai guide 2026年4月1日

llama.cpp — 從純 C++ 到消費級硬體上的 LLM 推論引擎

llama.cpp 是目前最廣泛使用的本地 LLM 推論引擎，用純 C/C++ 實作，支援 CPU、Metal、CUDA、Vulkan 等多後端，搭配 GGUF 量化格式讓消費級硬體能跑數十億參數的模型。

#llama-cpp #gguf #quantization #llm-inference #apple-silicon #metal #cuda #local-llm

ai guide 2026年4月1日

TurboQuant+ — 用兩階段量化把 KV Cache 壓到 2-bit，讓 MacBook 跑 100B 模型

TurboQuant+ 是 Google Research ICLR 2026 論文的開源實作，用 PolarQuant + QJL 兩階段量化壓縮 KV cache 達 3.8-6.4x，讓消費級硬體跑更大模型和更長上下文。

#turboquant #kv-cache #quantization #llm-inference #llama-cpp #apple-silicon

ai guide 2026年3月14日

Ollama 完整指南：一行指令在本地跑 LLM

Ollama 把 llama.cpp 包裝成 Docker 風格的 CLI + REST API，一行指令就能在本地跑 LLM。這篇從核心概念、安裝、API、硬體需求到 Modelfile 自訂，完整介紹這個工具適合什麼、不適合什麼。

#ollama #llm #local-inference #llama-cpp #self-hosted #openai-compatible