来源:蓝鲸
媒体
2025-02-07 21:52:26
(原标题:鲸观察|DeepSeek竞争压力下,OpenAI 公开了o3思维链,变Open了?)
图片来自视觉中国
蓝鲸新闻2月7日讯(记者 武静静)当地时间2月6日,OpenAI 公开最新模型 o3-mini 系列模型的思维链(以下简称CoT)。
OpenAI公开了o3-mini思维链,但不是原始版本
思维链简单来说就是模型在解决问题时的中间推理步骤,类似人类在思考问题时拆解问题、逐步推理的过程。用户也可以在用大模型时直观地看到机器是如何动态思考并给出答复的。
目前,国内市场,用户在使用DeepSeek深度思考R1模型以及kimi的k1.5长思考模型时已经可以直观的看到大模型的动态思考推理过程。
比如,输入“算八字”的指令,DeepSeek R1的思维链和给出的答复是这样的。
输入“圣杯一的含义”,kimi显示的推理过程是这样的:
OpenAI研究员Noam Brown在社交平台提到,“See CoT Live”通常是大模型的“ aha moment”(顿悟时刻)。不过他提到:虽然已经非常接近,但这并不是原始的思维链。
为什么不公开原始的思维链?奥特曼解释称,团队正努力整理原始的CoT提升可读性,并在必要时提供翻译,尽量保持原始内容的忠实度。
OpenAI首席产品官Kevin Weil发文称:“我们知道用户想要看到这些,OpenAI会找到一个合适的平衡点。”
由于DeepSeek在全球范围内的技术进展和开放性举措正在获得大量关注,因此,有人纷纷将DeepSeek R1模型和OpenAI的新动作进行比较。有用户在奥特曼的帖子下发表评论称:“可读性是否是不公开原始思维链的唯一理由?还是存在其他原因?DeepSeek CoT之所以如此有趣的原因之一是因为它是原始的、未经过滤的。”
有用户认为OpenAI此举是看到DeepSeek的产品效果和开源举措后,一次打破过往严防死守的“封闭”路线的跟进动作。也有用户对OpenAI现在才开放思维链表达不满,并称“DeepSeek免费执行此操作。”
DeepSeek开源后,基础大模型面临的新难题
可以理解的是,此前OpenAI一直未公开思维链,一个重要原因在于“保密性”,以此保障自己的技术领先地位。一位开发者告诉蓝鲸新闻:“一方面,思维链可能包含模型的内部工作原理,竞争对手可以利用这些信息来改进自己的模型。另一方面,思维链中包含敏感的数据或信息。如果模型在训练过程中接触了某些机密数据,这些数据可能在思维链中有所体现。公开这些信息可能会导致数据泄露,影响公司的利益。”
“不公开原始思维链可能是出于用户体验、隐私保护、输出质量、技术成本和商业机密等多方面的考虑。这样既能提供有用的思考过程,又不会带来负面影响。”前述开发者表示。
但是,思维链的开放也会给用户带来显而易见的价值,一位海外开发者认为,R1最酷的事情之一是暴露模型提示词汇如何影响COT,使得不良响应更容易解决。推理过程公开可以让开发者更容易看到哪个环节出现错误,这样用户就可以消除歧义并引导AI回答得更准确。
开放和开源也是DeepSeek当下在全球产生这么大影响的原因之一。正如DeepSeek创始人梁文峰此前在接受《暗涌》采访时提到,在颠覆性的技术面前,闭源形成的护城河是短暂的。他当时说道:“开源,发论文,其实并没有失去什么。对于技术人员来说,被follow是很有成就感的事。其实,开源更像一种文化行为,而非商业行为。”
Meta首席AI科学家杨立昆(Yann LeCun)公开谈到,“正确的解读是:‘开源模型正在超越专有模型’,DeepSeek提出了新想法,并在其他人的工作基础上进行了构建。由于他们的工作是公开且开源的,因此每个人都可以从中受益,这就是开放研究和开源的力量。”
近日,OpenAI CEO Sam Altman罕见地发表了检讨,称在开源方面他们“一直站在历史的错误一边”,也在内部承认了开源问题上的保守策略是一个战略失误。
如何把握开放的尺度?这是OpenAI当前面临的一道关键选择题。
OpenAI当下“公开思维链”这个表面看上去的小动作,背后也印证了公司正在尝试更多开放性的举措。
OpenAI之外,在DeepSeek开源之后,对于全球的大模型公司都产生了重大影响,很多基础大模型都要面对“如何保持自己竞争力”这一提问,更多公司的价值和估值也会受到挑战。
蓝鲸
2025-02-07
蓝鲸
2025-02-07
蓝鲸
2025-02-07
蓝鲸
2025-02-07
蓝鲸
2025-02-07
蓝鲸
2025-02-07
证券之星资讯
2025-02-07
证券之星资讯
2025-02-07
证券之星资讯
2025-02-07