开源 AI 模型今年真正崛起了

6/7/2026

今年 AI 领域发生了一个质变，但我觉得媒体报道还没完全跟上。开源模型跨过了一个门槛——它们不再只是"对开源来说不错"，在实际使用中已经能和商业模型正面竞争了。

数据说话

Llama 4、DeepSeek-V4、Qwen 3 在主要编程和推理基准测试中，得分已经接近 GPT-5 和 Claude Opus 4 的 5-10% 以内。一年前这个差距是 20-30%。但真正有说服力的不是基准测试，而是开发者实际在拿这些模型做什么。

实际使用感受

过去一个月我在一台 128GB 内存的 Mac Studio 上本地运行 DeepSeek-V4。一个完全跑在你机器上的编程模型——没有 API 调用、没有延迟、没有数据离开你的电脑——这种体验对某些工作流来说是革命性的。

代码补全和简单重构方面，本地模型和云端 API 几乎没有区别。延迟反而更好，因为没有网络往返。复杂推理任务方面，云端模型仍有优势，但差距在快速缩小。

生态效应

强大的开源模型带来的真正影响是它们催生的可能性。创业公司在构建使用 API 模型时经济上不可行的应用。隐私敏感行业（医疗、金融、法律）现在可以内部部署模型。API 访问受限地区的开发者也能参与 AI 生态系统。

我跟一家创业公司聊过，他们用微调后的 Llama 4 构建了代码审查工具。每次审查的成本从 0.50 美元（用 GPT-4）降到了几乎为零（用自己的硬件）。质量差异呢？用户在做盲测时根本分不出哪个审查来自哪个模型。