Skip to content

能在手機上跑的小模型:2026 年的選擇與限制

2026年3月31日 1 分鐘
TL;DR 2026 年行動端 LLM 主力是 Gemma 3n、Qwen 3.5 Small、Llama 3.2、Phi-4-mini、Ministral 3 和 SmolLM3。3B 以下量化模型在 8GB RAM 手機上能跑到 30–50 tokens/sec,但 RAM、散熱和 context window 仍是硬限制。

手機上跑 LLM 不再是 demo 等級的事了。2026 年,1B–4B 參數的模型經過量化後,能在一般手機上做到可用的推論速度。這篇整理目前主要的模型選項、推論框架和實際限制,幫你判斷哪個組合適合你的場景。

模型選項

Gemma 3n(Google)— 行動端首選

Google 在 2025 年 5 月推出 Gemma 3n,專為行動端設計。核心創新是 Per-Layer Embeddings(PLE),讓 5B 參數的模型實際只佔 2GB RAM,8B 版本佔 3GB——相當於傳統 2B 和 4B 模型的記憶體用量。

支援文字、圖片和音頻輸入,內建巢狀子模型(4B 主模型裡包含 2B 子模型),可以依據延遲需求動態切換。與 Qualcomm、MediaTek、Samsung 合作最佳化硬體支援。透過 Google AI Edge 部署,prefill 階段可達數千 tok/sec。

Qwen 3.5 Small(阿里巴巴)— 多語言與繁中最強

2026 年 3 月剛發布,取代 Qwen 2.5 成為行動端主力。四個尺寸:0.8B / 2B / 4B / 9B。

技術上的突破:混合架構(Gated Delta Networks + sparse MoE)、原生多模態訓練(4B 以上支援圖片和影片)、支援超過 200 種語言。Qwen3.5-4B 量化後約 2.5–3GB,可以在 8GB RAM 的手機上跑。社群測試 2B 模型在 iPhone 上開飛航模式能跑 30–50 tokens/sec。

如果你的應用場景是繁中或多語言,Qwen 3.5 Small 是目前最值得測試的選項。

Llama 3.2(Meta)— 英文生態系最成熟

1B 和 3B,從 Llama 3.1 8B/70B 透過剪枝(pruning)和知識蒸餾(distillation)壓縮而來。支援 128K context window。1B 量化後約 0.7GB,3B 約 1.8GB。

Meta 提供官方量化版本,比原始 BF16 格式快 2–4 倍、模型大小減少 56%、記憶體用量減少 41%。Snapdragon 8 Gen 4 上 Llama 3.2 3B 4-bit 量化據報可超過 200 tokens/sec。

英文生態系最成熟,工具呼叫支援也最完整,但中文能力相對弱。

Phi-4-mini(Microsoft)— 推理能力突出

3.8B 參數,dense decoder-only transformer,支援 128K context。數學推理上甚至贏 GPT-4o。透過 Microsoft Olive + ONNX GenAI Runtime 可部署到 iPhone、Android 和 Windows。

Microsoft 還推出了 Phi-4-mini-flash-reasoning,針對邊緣裝置最佳化,throughput 提升 10 倍、延遲降低 2–3 倍。如果你需要在手機上做推理密集的任務(數學解題、邏輯分析),Phi-4 系列是最佳選擇。

Ministral 3(Mistral)— 邊緣裝置全面覆蓋

2025 年 12 月 Mistral 3 家族的一部分,3B / 8B / 14B 三個尺寸。3B 量化後可以在 4GB VRAM 的裝置上跑。Apache 2.0 授權,商用無限制。

Mistral 的策略是「AI 的下一波不是靠規模,而是靠無所不在」——讓模型小到能跑在無人機、車輛、機器人和手機上。搭配 2026 年初推出的 Voxtral TTS(4B 語音合成模型),Mistral 在語音 AI on-device 這塊也開始有佈局。

MobileLLM-R1(Meta)— 不到 1B 的推理怪物

Meta 專為手機 CPU 設計的系列,140M 到 950M 四個尺寸。核心設計哲學是「深而窄」(deep-and-thin)——在 sub-billion 尺度下,更多層數搭配更小的 hidden dimension,比又寬又淺的架構效果好得多。

MobileLLM-R1-950M 在 MATH benchmark 上是 OLMo 1.24B 的 5 倍準確率、SmolLM2 1.7B 的 2 倍,參數量卻更小。125M 版本在 iPhone 上跑到 50 tokens/sec,能處理基本任務。

進階版 MobileLLM-R1.5 用 on-policy 知識蒸餾再提升 10–35 個百分點的推理準確率。如果你的場景是數學、程式碼或科學推理,而且裝置記憶體極度受限,這是目前最好的選擇。

SmolLM3(Hugging Face)— 開源透明度最高

3B 參數,支援 128K context(透過 YARN 外推),6 種語言。在 3B 級距打贏 Llama 3.2 3B,接近 Qwen3-4B 和 Gemma3-4B 的表現。支援雙模式推理(深度思考和快速回應)。

完全開源——訓練資料、程式碼、訓練配置全部公開,Apache 2.0 授權。如果你需要可審計、可復現的模型,SmolLM3 是唯一選擇。

推論框架

模型本身只是權重檔案,要在手機上跑還需要推論框架。

框架平台特色
Google AI Edge(MediaPipe)Android / iOSGoogle 官方,支援 Gemma 3n,GPU 加速,最容易上手
llama.cpp(GGUF)全平台最通用,社群大,幾乎所有模型都有 GGUF 格式
MLC LLMAndroid / iOS編譯成原生 GPU shader(Vulkan/Metal),速度通常最快
ExecuTorchAndroid / iOSMeta 官方,Llama 的最佳路徑,支援 CoreML 和 XNNPACK
Core MLiOSApple 原生,在 Apple Silicon 上效能最好,但只能用在 Apple 生態
ONNX Runtime Mobile全平台Microsoft 主推,Phi 模型的最佳化路徑

手機上也有現成的 app 可以直接跑模型:SmolChat(支援任何 GGUF 模型)、MNN Chat(專注速度和效率)、Off Grid(完全離線、免帳號)。

如果沒有特殊需求,llama.cpp + GGUF 是最安全的起點——模型選擇最多、社群資源最豐富。

量化:怎麼把模型塞進手機

原始的 FP16 模型太大,手機跑不動。量化是把權重從 16-bit 壓到 4-bit 甚至 2-bit 的過程。

GGUF(llama.cpp 格式)是目前行動端最主流的量化格式。常見的量化等級:

  • Q4_K_M:4-bit,品質和大小的最佳平衡點,大多數場景用這個
  • Q3_K_S:3-bit,再小一點,品質稍降
  • Q2_K:2-bit,極限壓縮,品質犧牲明顯,只適合 demo

一個粗略的換算:1B 參數 ≈ Q4 量化後 0.6–0.7GB

其他量化方式(AWQ、GPTQ)主要用在 server 端,行動端大多還是轉成 GGUF 來用。

實際限制

在手機上跑 LLM 聽起來很酷,但硬體限制很現實:

RAM 是最大瓶頸。模型要整個載入記憶體。4GB RAM 的手機只能穩定跑 1B 模型,8GB 的可以處理 3–4B。Gemma 3n 的 PLE 技術是目前唯一有效突破這個限制的方案。

Context window 受限。KV cache 吃記憶體,實際上手機端大多只能用 2K–4K tokens 的 context。有些模型號稱支援 128K,但在手機上根本用不到那麼多。

散熱會降速。持續推論超過 30 秒,手機開始熱節流,速度可能掉 30–50%。這代表長文生成的體驗不會太好。

電量消耗。一次長對話大約吃 5–10% 電量。不是不能接受,但使用者會注意到。

實際場景

考慮到這些限制,目前 on-device LLM 比較適合:

  • 離線摘要:在沒網路的地方幫文章、email 做重點整理
  • 智慧回覆:短文本生成,像 Smart Reply 那種 1–2 句話的回應
  • 隱私敏感處理:醫療筆記、法律文件等不想送到雲端的內容
  • 離線翻譯:搭配 Qwen 3.5 這類多語言模型,基本翻譯可以離線做

不太適合的:長文生成、複雜多輪對話、需要大 context 的 RAG——這些還是留給雲端。

選模型的決策流程

你的主要語言是什麼?
├── 中文(繁/簡)→ Qwen 3.5 Small 或 Gemma 3n
├── 英文為主   → Llama 3.2 或 Phi-4-mini
└── 多語言     → Gemma 3n 或 Qwen 3.5 Small

你的裝置 RAM?
├── 4GB  → Gemma 3n E2B 子模型、Qwen 3.5 0.8B、MobileLLM-R1
├── 6GB  → Llama 3.2 1B、Qwen 3.5 2B、SmolLM3、Ministral 3 3B(Q4)
├── 8GB+ → Gemma 3n E4B、Qwen 3.5 4B、Llama 3.2 3B、Phi-4-mini

你需要什麼能力?
├── 簡單分類/提取     → Qwen 3.5 0.8B、MobileLLM-R1 140M
├── 摘要/回覆         → 1B–3B
├── 推理/數學(低資源)→ MobileLLM-R1.5 950M
├── 推理/數學(8GB+) → Phi-4-mini-flash-reasoning
└── 多模態(圖片+文字)→ Gemma 3n 或 Qwen 3.5 4B+

怎麼追蹤最新模型

小模型的迭代速度很快,這篇寫完可能下個月又有新東西。幾個值得固定追蹤的管道:

Leaderboard / 比較站

  • Artificial Analysis:獨立測量,72 小時更新週期,314+ 模型,有速度(tokens/sec)和價格比較,可以按模型大小篩選,追蹤小模型的性價比特別好用
  • LiveBench:每月從最新 arXiv 論文和新聞出新題目,避免 benchmark gaming,數學、程式、推理都有覆蓋
  • LMSYS Chatbot Arena:群眾盲測 A/B 比較,產生 Elo 評分。比 benchmark 更接近「實際用起來的感覺」,但小模型的投票數可能不夠多

即時追蹤

  • Hugging Face Trending Models:即時反映社群在下載什麼,新開源模型通常比新聞更早出現在這裡
  • Hugging Face Daily Papers:社群投票的每日論文精選,新模型的技術論文幾乎都會上榜
  • LLM Stats:每小時更新,聚合 TechCrunch、VentureBeat 等來源的模型發布新聞,可以看到過去 24 小時內的新模型

社群

  • r/LocalLLaMA:Reddit 上最活躍的本地模型社群,第一手的跑分、量化版本、手機實測心得大多從這裡出來
  • Hugging Face Daily Papers 的留言區也常有模型作者和社群的深度討論
  • Hugging Face Discord / EleutherAI Discord:開源模型討論,常有比官方公告更早的消息

Newsletter

  • Import AI(Jack Clark):每週深度分析 AI 研究論文,對新模型架構的解讀特別好
  • Interconnects(Nathan Lambert):專注開源模型、RLHF、訓練方法論,對小模型生態有深入洞察

X/Twitter

  • @_akhaliq:新模型和論文發布速度最快的個人帳號,幾乎即時
  • @rasbt(Sebastian Raschka):小模型架構拆解和實作教學
  • @TheAhmadOsman:專注本地跑 LLM,GPU benchmark、推論最佳化

各實驗室官方 Blog

建議策略:用 Hugging Face Trending 和 LLM Stats 追新發布,到 Artificial Analysis 或 LiveBench 比較數字,在 r/LocalLLaMA 看社群實測回饋,再訂閱 Import AI 或 Interconnects 掌握趨勢。但最終還是要用你自己的資料測——benchmark 和實際表現不一定一致。

整體來說

2026 年的 on-device LLM 已經從「技術 demo」進入「特定場景可用」的階段。跟一年前最大的差異是 Gemma 3n 的 PLE 技術和 Qwen 3.5 的原生多模態——前者讓大模型塞進小記憶體,後者讓手機上的 AI 能同時處理文字和圖片。

關鍵的取捨仍然是:你願意犧牲多少品質來換取離線能力和隱私。對大多數應用來說,最務實的策略是 on-device 處理簡單任務(分類、短回覆、隱私資料),複雜的留給雲端——混合架構比全押任何一邊都合理。

參考資料