端侧大模型革命：Needle 26M 参数击败 Qwen-0.6B 的奇迹

📰 AI 行业深度 · 2026-05-19

Needle：26M 参数如何打败 600M 参数模型？

Cactus Compute 团队开源的 Needle 模型，仅 2600 万参数，却能在单次函数调用（Function Calling）任务上击败 Qwen-0.6B 等大 20 倍参数的模型。这证明了一个反直觉的事实：专用小模型在特定任务上可以碾压通用大模型。

指标	数据
参数量	26M（0.26 亿）
对比模型	Qwen-0.6B（参数量 23 倍）
端侧预填充速度	6000 token/s
端侧解码速度	1200 token/s
蒸馏来源	Gemini 3.1
模型架构	Simple Attention Network（SAN）

Needle 的秘密不是简单地缩小模型，而是将 Gemini 3.1 的工具调用能力蒸馏到极小模型：

Needle 的成功揭示了端侧 AI 的关键洞察：

Needle 证明了端侧 AI 的正确路径不是"把大模型缩小"，而是"为特定任务设计专用小模型"。当 26M 参数就能完成函数调用，手机、手表、眼镜等设备的 AI 能力将迎来爆发。端侧 AI 的普及不取决于大模型有多强，而取决于专用小模型有多轻。

关键信息：

维度	详情
来源	GitHub、Hugging Face、IC.work、AIToolly
链接	GitHub 仓库 · Hugging Face · 深度解析