Skip to content

2026 Q1 開源 LLM 全景圖:從前沿大模型到手機端,完整盤點

2026年3月31日 1 分鐘
TL;DR 2026 Q1 開源模型全面爆發:LLM 方面 GLM-5、Kimi K2.5、Qwen3.5 追上閉源;Embedding 和 Reranker 由 Qwen3 和 BGE 主導;語音有 Voxtral TTS 和 Whisper V3;圖像有 FLUX.2;影片有 Wan 2.2 追平 Sora。這篇是完整導覽地圖。
目錄
  1. 2026 Q1 開源模型發布時間軸
  2. 前沿級開源模型(100B+)
    1. GLM-5 / GLM-5.1(智譜 AI)— 開源排名最高
    2. Kimi K2.5(月之暗面)— 1T 參數 + Agent Swarm
    3. Qwen3.5-397B-A17B(阿里巴巴)— 多模態旗艦
    4. MiniMax-M2.5 — SWE-bench 追平 Claude Opus
    5. DeepSeek V3 / R1 — 仍然重要但開始老化
    6. Llama 4 Scout / Maverick(Meta)— 超長 Context
    7. gpt-oss-120b(OpenAI)— 第一個開源模型
    8. Devstral 2(Mistral)— 程式碼專精
    9. 前沿級總覽
  3. 中間層模型(7B–70B)
    1. Qwen3.5 Medium 系列(2026/02)
    2. Mistral Small 4(2026/03)
    3. Gemma 3(Google,2025/03)
    4. Devstral Small 2(Mistral,2025/12)
    5. InternLM3-8B(上海 AI Lab,2026/01)
    6. 其他仍然廣泛使用的模型
  4. 行動端小模型(7B 以下)
    1. Qwen3.5 Small 系列(2026/03)
    2. Gemma 3n(Google,2025/05–07)
    3. 其他重要小模型
  5. Embedding 模型:RAG 的基礎
  6. Reranker 模型:提升檢索精度
  7. 程式碼模型:專精寫 Code
  8. 語音模型:STT 和 TTS
    1. 語音轉文字(STT)
    2. 文字轉語音(TTS)
  9. 圖像生成模型
  10. 影片生成模型
  11. 部署與推論:怎麼把模型跑起來
    1. 本地開發 → Ollama
    2. 生產部署 → vLLM
    3. 邊緣 / Serverless → Cloudflare Workers AI
    4. 部署方式速查
  12. 排行榜現況(2026/03)
    1. LMArena(原 Chatbot Arena)
    2. Artificial Analysis Intelligence Index
  13. 怎麼選模型:決策框架
    1. Step 1 — 確認場景
    2. Step 2 — 確認限制
    3. Step 3 — 先跑再說
  14. 怎麼追蹤最新模型
    1. Leaderboard / 比較站
    2. 即時追蹤
    3. 社群
  15. 整體來說
  16. 參考資料

開源 LLM 在 2026 年第一季的進展速度,快到很難靠單篇文章追完。光是 Q1 就有超過 15 個重要模型發布——前沿級的 MoE 模型突破 1T 參數,中間層的效率大幅提升(Qwen3.5-35B 用 3B 啟用參數就超越上一代 235B 旗艦),行動端的小模型壓到 140M 就能做推理。

這篇是一張導覽地圖。每個類別我會講清楚現在的格局和關鍵數據,細節則連到各篇專文——那邊有完整的技術架構、benchmark 比較和實際使用經驗。

2026 Q1 開源模型發布時間軸

先看全貌。這是 2026 年 1–3 月的主要開源模型發布:

日期模型開發者重點
01/15InternLM3-8B上海 AI Lab8B,資料效率是 Llama 3.1 的 4 倍
01/27Kimi K2.5月之暗面1T/32B MoE,Agent Swarm,MIT
02/11GLM-5智譜 AI745B/44B MoE,MIT,開源第一名
02/11MiniMax-M2.5MiniMax230B/10B MoE,SWE-bench 80.2%
02/16Qwen3.5-397B阿里巴巴397B/17B MoE,原生多模態,Apache 2.0
02/24Qwen3.5 Medium阿里巴巴122B/35B/27B 三個尺寸
02 月Tiny AyaCohere3.35B,70+ 語言
03/01Qwen3.5 Small阿里巴巴0.8B–9B,行動端多模態
03/15GLM-5-Turbo智譜 AIGLM-5 加速版
03/16Mistral Small 4Mistral AI119B/6.5B MoE,統一推理+多模態+程式碼
03/26Voxtral TTSMistral AI開源語音合成,9 語言
03/27GLM-5.1智譜 AIGLM-5 改進版,程式碼能力逼近 Claude Opus

前沿級開源模型(100B+)

2026 年的前沿開源模型幾乎都採用 Mixture of Experts(MoE) 架構——總參數量巨大,但每次推論只啟用一小部分,在效能和成本之間取得平衡。中國實驗室在這個梯隊佔主導地位。

GLM-5 / GLM-5.1(智譜 AI)— 開源排名最高

745B 總參數、44B 啟用參數(256 experts,每 token 啟用 8 個),MIT 授權。完全在華為昇騰晶片上訓練,沒用一張 NVIDIA GPU。Artificial Analysis Intelligence Index 開源第一(50 分),SWE-bench Verified 77.8%,Humanity’s Last Exam 50.4%。API 定價約 $1.00/$3.20 per M tokens。

3 月 27 日發布的 GLM-5.1 進一步提升,程式碼能力逼近 Claude Opus 4.6。

GLM-5 完整介紹:智譜 AI 的 744B 開源模型

Kimi K2.5(月之暗面)— 1T 參數 + Agent Swarm

1T 總參數、32B 啟用參數的 MoE 模型,MIT 授權(超過 1 億 MAU 或 $20M 月營收需標註 Kimi K2.5)。原生多模態,最大亮點是 Agent Swarm——可以同時協調 100 個 sub-agent、發出 1,500 次工具呼叫。程式碼和數學在部分基準上是開源最強。

Kimi 完整介紹:月之暗面的長文本 AI 模型

Qwen3.5-397B-A17B(阿里巴巴)— 多模態旗艦

397B 總參數、17B 啟用參數的混合 MoE(Gated Delta Networks + sparse MoE,512 experts,每 token 10 routed + 1 shared)。262K context(可擴展到 1M),原生多模態(文字/圖片/影片),支援 201 種語言,Apache 2.0 授權。

Qwen 在 2025 年 4 月的 Qwen3 系列(235B 旗艦)之後,半年內就推出了架構全面升級的 3.5 系列——進化速度極快。

MiniMax-M2.5 — SWE-bench 追平 Claude Opus

230B 總參數、10B 啟用參數的 MoE 模型,Modified MIT 授權。SWE-bench Verified 80.2%(追平 Claude Opus 4.6),Multi-SWE-Bench 第一名(51.3%),成本只有 Claude Opus 的 1/20。用自研的 Forge RL 框架訓練。

MiniMax 相對低調,但 M2.5 的程式碼能力是目前開源模型中最頂級的。

DeepSeek V3 / R1 — 仍然重要但開始老化

DeepSeek-V3(671B/37B MoE,2024/12)和 R1(推理特化版,2025/01)以 MIT 授權開源,訓練成本僅 $5.6M,震撼了整個產業。V3.1(2025/08)合併了 V3 和 R1 的能力,支援混合思考模式。V3.2-Exp(2025/09)引入 Sparse Attention。

但截至 2026/03/31,R2 和 V4 都尚未發布——原定 2025 年 5 月的時程已多次延後。據報導 CEO 梁文峰對 R2 的表現不滿意,可能在用華為晶片重新訓練。

Llama 4 Scout / Maverick(Meta)— 超長 Context

2025 年 4 月發布。Scout(109B/17B MoE,16 experts)有 10M context window,Maverick(400B/17B MoE,128 experts)有 1M context。Llama 4 Community License(open-weight 但非完全開源)。

多模態(文字+圖片輸入),多語言支援,但中文能力仍不如 Qwen 和 GLM。

gpt-oss-120b(OpenAI)— 第一個開源模型

2025 年 8 月發布,117B 總參數、5.1B 啟用參數的 MoE,Apache 2.0 授權。推理能力接近 o4-mini,可在單張 80GB GPU 上跑。同時發布了 gpt-oss-20b(21B/3.6B)。

OpenAI 放出開源模型本身就是歷史性事件,雖然它在能力上已經不是最頂級。

Devstral 2(Mistral)— 程式碼專精

123B dense 模型,256K context,Modified MIT。SWE-bench Verified 72.2%,成本效率是 Claude Sonnet 的 7 倍。專為程式碼生成和 agentic coding 設計。

前沿級總覽

模型總參數啟用參數架構授權發布特長
GLM-5.1745B44BMoEMIT2026/03開源綜合第一
Kimi K2.51T32BMoEMIT*2026/01Agent Swarm
Qwen3.5-397B397B17BMoEApache 2.02026/02多模態+多語言
MiniMax-M2.5230B10BMoEModified MIT2026/02SWE-bench 最強
DeepSeek-V3.1671B37BMoEMIT2025/08成本最低
Llama 4 Maverick400B17BMoELlama 42025/041M context
Llama 4 Scout109B17BMoELlama 42025/0410M context
gpt-oss-120b117B5.1BMoEApache 2.02025/08OpenAI 開源
Devstral 2123B123BDenseModified MIT2025/12程式碼專精

中間層模型(7B–70B)

不是每個應用都需要前沿級模型。7B–70B 的模型在單機或少量 GPU 上就能跑,是很多生產場景的甜蜜點。

Qwen3.5 Medium 系列(2026/02)

阿里巴巴在 2 月 24 日推出三個尺寸,全部 Apache 2.0、原生多模態:

模型總參數啟用參數架構亮點
Qwen3.5-122B-A10B122B10BMoEAgentic benchmark 最強(BFCL-V4 72.2)
Qwen3.5-35B-A3B35B3BMoE超越上一代 235B 旗艦
Qwen3.5-27B27B27BDenseSWE-bench Verified 72.4,追平 GPT-5 mini

Qwen3.5-35B-A3B 特別值得注意——3B 啟用參數就超越上一代 22B 啟用的旗艦模型,代表架構效率的巨大進步。

Mistral Small 4(2026/03)

119B 總參數、6.5B 啟用參數的 MoE,256K context,Apache 2.0。把 Magistral(推理)、Pixtral(多模態)、Devstral(程式碼)三條產品線統一成一個模型,支援可調推理力度。

Gemma 3(Google,2025/03)

基於 Gemini 2.0 技術,1B/4B/12B/27B 四個尺寸,多模態(文字+圖片),128K context。在 Cloudflare Workers AI 上的繁中表現比 Llama 好。

Gemma 3 on Cloudflare Workers AI:繁中應用的務實選擇

Devstral Small 2(Mistral,2025/12)

24B dense,Apache 2.0。SWE-bench Verified 68.0%,可在消費級硬體上跑。如果你只需要程式碼能力而且硬體有限,這是性價比最高的選項。

InternLM3-8B(上海 AI Lab,2026/01)

8B 參數,資料效率是 Llama 3.1 的 4 倍(用 4T tokens 訓練),整合對話和深度思考模式,表現追平 GPT-4o-mini。

其他仍然廣泛使用的模型

  • Llama 3.1 70B / 3.3 70B(2024):英文生態最成熟,128K context
  • Qwen3-32B / 14B / 8B(2025/04):Apache 2.0,中文和多語言強

行動端小模型(7B 以下)

1B–4B 參數的模型經過量化後,能在一般手機上做到可用的推論速度。2026 Q1 最重要的進展是 Qwen3.5 Small 系列和持續改進的推論框架。

Qwen3.5 Small 系列(2026/03)

0.8B / 2B / 4B / 9B 四個尺寸,混合架構(Gated DeltaNet + MoE),262K context,原生多模態(4B 以上),201 語言,Apache 2.0。9B 版本甚至超越上一代 Qwen3-30B。

繁中和多語言場景的行動端首選。

Gemma 3n(Google,2025/05–07)

行動端專用設計,Per-Layer Embeddings(PLE)讓 5B 參數模型只佔 2GB RAM。E2B/E4B 兩個尺寸,多模態(文字/圖片/音頻/影片),與 Qualcomm、MediaTek、Samsung 合作最佳化。

其他重要小模型

模型參數量授權特長
Llama 3.21B / 3BLlama Community英文生態最成熟,128K context
Phi-4-mini-flash-reasoning3.8BMIT數學推理,10x throughput
SmolLM33BApache 2.0完全開源(含訓練資料),128K context
MobileLLM-R1140M–950MMITsub-billion 推理最強
Tiny Aya3.35BCC-BY-NC70+ 語言,邊緣裝置
gpt-oss-20b21B / 3.6B activeApache 2.0OpenAI 小型開源模型

行動端小模型完整比較:2026 年的選擇與限制

Embedding 模型:RAG 的基礎

做 RAG 不只需要生成模型,還需要 Embedding 模型把文本向量化。2026 年這個領域的變化也很大——Qwen3-Embedding 拿下 MTEB 多語言第一,Jina v4 支援多模態 Embedding,Nomic v2 首次把 MoE 用在 Embedding 模型上。

模型開發者參數量維度Max Tokens多語言授權特長
Qwen3-Embedding-8B阿里巴巴8B716832K100+ 語言Apache 2.0MTEB 多語言第一(70.58)
BGE-M3BAAI568M10248K100+ 語言MIT唯一支援 dense + sparse + ColBERT 三模式
Jina Embeddings v4Jina AI3.8B204832K30+ 語言CC-BY-NC-4.0多模態(文字+圖片+PDF)
NV-Embed-v2NVIDIA7.85B409632K英文為主CC-BY-NC-4.0MTEB 英文高分
Nomic Embed v2Nomic AI475M(MoE)768512~100 語言Apache 2.0首個 MoE Embedding,完全開源
EmbeddingGemma-300MGoogle300M7682K100+ 語言Gemma邊緣裝置部署,<200MB RAM

怎麼選:繁中 RAG 用 BGE-M3(MIT、三模式檢索)或 Qwen3-Embedding(精度最高)。需要多模態 Embedding(圖片+PDF)用 Jina v4。邊緣裝置用 EmbeddingGemma

BGE-M3:為什麼這個 Embedding 模型適合繁體中文 RAG

Reranker 模型:提升檢索精度

Embedding 負責召回,Reranker 負責精排。好的 Reranker 可以讓 RAG 的答案品質大幅提升。

模型開發者參數量授權特長
Qwen3-Reranker(0.6B/4B/8B)阿里巴巴0.6B–8BApache 2.0搭配 Qwen3-Embedding 全套 pipeline
BGE Reranker v2-m3BAAI568MMIT搭配 BGE-M3,最寬鬆授權
Jina Reranker v3Jina AI0.6BCC-BY-NC-4.0131K context,跨文件交互
gte-reranker-modernbert-base阿里巴巴149MApache 2.0149M 追平 1.2B Nemotron

最務實的組合:BGE-M3 + BGE Reranker v2-m3(全部 MIT)或 Qwen3-Embedding + Qwen3-Reranker(全部 Apache 2.0)。

Cross-Encoder Reranking:讓最相關的文件排到前面 ColBERT:向量搜尋的第三條路 SPLADE:比 BM25 更聰明的稀疏向量搜尋

程式碼模型:專精寫 Code

前沿級 LLM 大多能寫程式碼,但有些模型是專門為 coding 最佳化的。

模型開發者參數量授權亮點
Qwen3-Coder-480B-A35B阿里巴巴480B/35B MoEApache 2.0開源 coding 旗艦
Qwen2.5-Coder-32B阿里巴巴32BApache 2.0HumanEval 92.7%(超越 GPT-4o)
Devstral 2Mistral123B denseModified MITSWE-bench 72.2%,256K context
Devstral Small 2Mistral24BApache 2.0SWE-bench 68%,消費級硬體可跑
StarCoder2-15BBigCode15BOpenRAIL-M600+ 程式語言,覆蓋最廣
DeepSeek-Coder-V2DeepSeek236B/21B MoEDeepSeek License128K context,程式碼+數學

語音模型:STT 和 TTS

語音轉文字(STT)

模型開發者參數量WER語言授權
Canary Qwen 2.5BNVIDIA2.5B5.63%英文CC-BY-4.0
Granite Speech 3.3 8BIBM~9B5.85%多語言+翻譯Apache 2.0
Whisper Large V3OpenAI1.55B7.4%99+ 語言MIT
Whisper Large V3 TurboOpenAI809M7.75%99+ 語言MIT
Parakeet TDT 1.1BNVIDIA1.1B~8%英文CC-BY-4.0

多語言首選 Whisper V3(MIT,99+ 語言)。英文精度最高用 Canary Qwen。需要即時串流用 Parakeet TDT(>2000x 即時速度)。

文字轉語音(TTS)

模型開發者參數量語言授權特長
Voxtral TTSMistral4B9 語言Apache 2.03 秒語音克隆,70ms 延遲,2026/03 發布
Kokorohexgrad82M多語言Apache 2.082M 就能高品質合成,CPU 可跑
Fish Speech V1.5Fish Audio中英多語30 萬小時訓練,DualAR 架構
Parler TTSHugging Face~600M英文Apache 2.0可用 prompt 控制語氣風格

Voxtral TTS 是 2026/03 最新發布的亮點——3 秒音頻就能克隆聲音,支援串流,Apache 2.0 授權。

圖像生成模型

模型開發者參數量授權特長
FLUX.2 DevBlack Forest Labs32B開放權重(非商用)文字渲染和人物最佳
FLUX.2 Klein 4BBlack Forest Labs4BApache 2.0消費級 GPU 秒出圖
Stable Diffusion 3.5 LargeStability AI8.1B營收 <$1M 免費12GB VRAM 可跑
SDXLStability AI~3.5BCreativeML Open RAIL-M生態系最成熟(LoRA、ControlNet)

影片生成模型

模型開發者參數量授權特長
Wan 2.2阿里巴巴5B/14BApache 2.0電影級品質,5B 版消費級 GPU 可跑
HunyuanVideo騰訊13BTencent License品質追平 Runway Gen-3
Open-Sora 2.0HPC-AI Tech11B開源訓練成本僅 $200K,接近 OpenAI Sora
Mochi 1Genmo10BApache 2.0商用友好

開源影片生成在 2026 年進步最劇烈——Wan 2.2 和 HunyuanVideo 的品質已經直接對標 Sora 和 Veo。

部署與推論:怎麼把模型跑起來

選完模型還要選怎麼跑。2026 年的推論生態已經相當成熟,但不同場景的最佳選擇差異很大。

本地開發 → Ollama

一行指令下載並啟動模型,Docker 風格的 CLI + OpenAI 相容 API。適合個人開發、原型驗證、離線使用。不適合高併發生產環境。

Ollama 完整指南:一行指令在本地跑 LLM

生產部署 → vLLM

PagedAttention + continuous batching + prefix caching,目前最主流的開源 LLM 推論引擎。適合需要高 throughput 的 API 服務。

vLLM:從 PagedAttention 到生產級 LLM 推論引擎

邊緣 / Serverless → Cloudflare Workers AI

不想管 GPU 的話,Cloudflare Workers AI 提供免運維的推論服務。模型選擇有限,但 Gemma 3 12B 的繁中表現比 Llama 好。

Gemma 3 on Cloudflare Workers AI:繁中應用的務實選擇

部署方式速查

你要做什麼?
├── 本地實驗 / 原型 → Ollama
├── 生產 API 服務   → vLLM(自管 GPU)或 Cloudflare Workers AI(免管)
├── 手機 App        → llama.cpp + GGUF 或 Google AI Edge
└── 離線 / 隱私     → Ollama 或 on-device 模型

排行榜現況(2026/03)

開源模型和閉源模型的差距正在快速縮小,但前沿閉源模型仍然領先。

LMArena(原 Chatbot Arena)

5,632,160 票、333 個模型。前 9 名全是閉源(Claude Opus 4.6 以 1504 Elo 居首),開源最高的是 GLM-5 家族和 Kimi K2.5。

Artificial Analysis Intelligence Index

314 個模型。閉源最高分 57(Gemini 3.1 Pro Preview),開源最高分 50(GLM-5 Reasoning)——差距已經從一年前的 20+ 分縮小到 7 分。

最快的模型:Mercury 2(789.2 tok/s)。最便宜的模型:Gemma 3n E4B($0.03/M tokens)。

怎麼選模型:決策框架

Step 1 — 確認場景

場景推薦方向
通用對話 / ChatbotGLM-5.1、Kimi K2.5、Qwen3.5-397B
程式碼生成 / Agentic CodingMiniMax-M2.5、GLM-5.1、Devstral 2
繁中 RAGGemma 3 12B(生成)+ BGE-M3(Embedding)
多語言應用Qwen3.5 系列(201 語言)
手機離線Gemma 3n、Qwen 3.5 Small
數學 / 推理Phi-4-mini(手機)、DeepSeek-R1(雲端)
超長文本Llama 4 Scout(10M context)、Kimi K2.5
預算極低Cloudflare Workers AI(免費額度)+ Gemma 3

Step 2 — 確認限制

  • GPU 資源:沒有 GPU → Ollama CPU 模式或 Cloudflare Workers AI;有 GPU → vLLM
  • 語言需求:繁中 → Qwen 或 Gemma 優先;英文 → Llama 或 Phi 優先
  • 授權需求:商用 → MIT / Apache 2.0(GLM-5、Qwen3.5、SmolLM3);注意 Llama 和 Modified MIT 的限制
  • 隱私需求:不能送雲端 → 本地部署或 on-device

Step 3 — 先跑再說

Benchmark 和實際表現不一定一致。用你自己的資料跑一輪,比看任何排行榜都有用。Ollama 讓你五分鐘內就能測完一個模型——門檻已經低到沒有理由不試。

怎麼追蹤最新模型

開源模型的迭代速度極快,這篇寫完可能下週又有新東西。以下是我固定追蹤的管道:

Leaderboard / 比較站

  • Artificial Analysis:獨立測量,72 小時更新週期,314+ 模型,有速度(tokens/sec)和價格比較,可以按模型大小篩選,追蹤性價比特別好用
  • LiveBench:每月從最新 arXiv 論文和新聞出新題目,避免 benchmark gaming,數學、程式、推理都有覆蓋
  • LMArena(原 Chatbot Arena):群眾盲測 A/B 比較,產生 Elo 評分。比 benchmark 更接近「實際用起來的感覺」
  • LiveBench:每月從最新 arXiv 論文和新聞出新題目,避免 benchmark gaming

即時追蹤

社群

  • r/LocalLLaMA:Reddit 上最活躍的本地模型社群,第一手的跑分、量化版本、實測心得大多從這裡出來
  • Hugging Face Daily Papers 的留言區也常有模型作者和社群的深度討論

建議策略:用 LLM Stats 追新發布 → Hugging Face Trending 看社群反應 → Artificial Analysis / LMArena 比較數字 → r/LocalLLaMA 看實測回饋。但最終還是要用你自己的資料測——benchmark 和實際表現不一定一致。

整體來說

2026 年 Q1 的開源 LLM 有五個結構性趨勢:

  1. MoE 主導:前沿級幾乎全是 MoE,啟用參數控制在 10–44B,推論成本不再隨總參數量線性增長
  2. 中國實驗室領跑:GLM-5、Kimi K2.5、Qwen3.5、MiniMax-M2.5、DeepSeek——前沿開源 top 5 有 4 個來自中國
  3. 原生多模態:Qwen3.5、Gemma 3n、Kimi K2.5 都從預訓練就整合視覺,不再是後掛 adapter
  4. MIT/Apache 2.0 成為標準:前沿開源模型的授權越來越寬鬆,商用門檻大幅降低
  5. 開源追上閉源:GLM-5 在 Artificial Analysis 拿到 50 分,閉源最高 57 分——一年前差距超過 20 分

最大的結構性變化:選模型的決策正在從「開源 vs 閉源」轉向「自建 vs 託管」。技術能力不再是瓶頸,運維能力才是。


參考資料

站內專文:

外部資源: