你说的没错,DeepSeek 的开源准确来说并不是 Open Source,而是 Open Weights。但这不是 DeepSeek 的问题,而是当前 AI 研究机构 / 企业之间共同的问题。如果 Meta、Mistral 等国外企业的开源方式没有变化,就完全没必要指责 DeepSeek。

在做开源的 AI 企业中,DeepSeek 的开放程度已经非常高了,除了开源模型权重,愿意在论文里披露足够多的训练方法和过程细节,更不要说跟完全闭源的模型相比了。

我看到有人拿 AI 模型开源和软件代码开源对比,把模型权重开源类比成二进制开源。但是有一个问题在于,很多软件开源是只开源代码,不开源二进制文件的,二进制文件需要自己编译。那么问题来了,假如一个 AI 企业只开源训练代码+数据集而不开源模型权重,用户就会支持他吗?

我觉得未必,因为权重文件才是 AI 模型训练的核心成果,需要大量的卡时,付出高额的成本,并不是所有人都有能力进行复现训练,实际上大多数人都是为了模型能开箱即用。

举个例子,今天 Sam Altman 在 Reddit 上回答用户提问,用户问的是:

  • OpenAI 能不能开源一些模型权重
  • OpenAI 能不能发表更多研究细节

Sam Altman 的回答是:他个人认为 OpenAI 站在了历史错误的一边,需要找到不同的开源策略

注意这里用户提到的,也是 Open Weights,而不是 Open Source。也就是说,一些用户对 AI 开源的需求和期待,就是开放权重 + 披露技术细节,而不指望 OpenAI 真的会公开代码和数据。

我们可以把传统软件代码开源和 AI 模型权重开源做个对比:

维度 传统开源(代码) AI开源(权重)
透明度 代码逻辑完全可见,可审计 权重为黑箱,决策逻辑不可解释
协作性 社区可共同修改代码 社区主要在应用层创新(如微调、部署)
资源依赖性 依赖开发者智力贡献 依赖大厂提供预训练模型
创新方向 底层技术改进(如算法优化) 应用开发(如垂直领域适配)

严格来讲,如果真的追求最极致的模型开源,需要做到训练代码、架构算法、训练数据集、模型权重全部开源。

我个人觉得,AI 模型的开/闭源并不是一个非黑即白的二维选项,而是根据其开放程度,可以划分出很多种方式(更不要说有现在有各种具体的开源协议了)。

维度 完全开源(代码+数据) 开源权重 封闭模型
透明度 高(可追溯偏见/漏洞) 中(仅行为可测) 低(黑箱)
创新参与度 全栈创新(算法→应用) 应用层创新为主 依赖API二次开发
商业化潜力 社区共享收益 企业主导收益分配 企业完全控制
法律风险 高(数据版权/隐私) 中(权重侵权风险) 低(集中管控)
资源门槛 高(需复现训练) 低(即插即用) 无需本地部署,依赖云服务

还有一个隐藏的问题在于,大多数模型(包括 OpenAI / Google 的闭源商用模型),训练数据集里都会有很多灰色版权内容,压根不可能把这些东西开出来。

所以即便一个企业,公布论文,开源代码,发布权重文件,他也不愿意开源真正的数据集。

DeepSeek 的确不能称之为「真正的开源」,但问题在于,现在大模型产业里根本就不存在「真正的开源」,可以抨击整个行业,而不能指摘某个具体的公司。