ChatGPT官网

别比了,Deepseek和GPT 4.5根本不在一个维度

chatgpt中文网2025-03-04 18:44:3915

让我先预测两个极端的自媒体标题“GPT4.5情商秒杀deepseek”;“4.5价格达到惊人的75刀,deepseek又赢了。”

国内的风气就是不论出什么模型,先和deep seek比一番,由此得出中国和美国谁更强大的结论,这篇文章不会做这样无聊的比较,因为这次发布的模型有些特殊——与我们阔别将近9个月的前沿预训练基座模型。

(gpt4o发布已经是去年五月份)

这次发布了一些指标,但着重强调的都是这个模型在一些直觉性理解以及语言上的能力,而不太敢拿它去和一些推理模型去比,这也不是他们的宣传重点,从这一点我们就可以看出预训练堆参数获得万能模型的时代确实结束了。

23年后期,甚至24年早期,大家都还一直有着一种幻想,存在一种一劳永逸的解决方法,使得下一代模型在雷达图的各个方向都有等长的巨大提升,sam把他描述为一种类似准AGI的模型,这是人们一开始对GPT5的幻想。

GPT 4.5的亮相多少有些失落:它在数学推理、代码编写这些硬核领域并不比那些专门为逻辑推理打造的模型更强,甚至有些还落后;37.5/70刀的API调用价格,让大家梦回GPT4时代。

早期的GPT4 32K其实更贵

这其实基本验证了去年末the information,the verge爆出来的传闻:OpenAI过去一年想直接冲刺GPT-5,代号“Orion”的训练计划却几度受挫,效果十分不理想。隔壁的claude 3.5 opus估计也是这个情况。

Sam Altman在过去一年甚至更早之前曾多次暗示,他想靠无脑式的大规模预训练,一举跃升到某种“准AGI”级别的GPT-5,可现在看来,这条路走到中途就卡壳了。

现在我们得知了,GPT-5经过多次推迟和命名策略重组,变成了GPT-4.5+O3的组合;OpenAI也不再鼓吹GPT-4.5能在所有领域“秒杀”之前的模型,而是更强调它在创意写作和情感互动上的长项。

说起创意写作,很多人可能完全没有兴趣再使用这个模型了,本能的觉得这次的升级简直是放屁脱裤子,数十倍的计算带来了一丁点的提升。

但我认为这恰恰反映了系统一这样的直接思维有多么可贵——如此多的算力尽然仅仅一点的提升。

GPT真正进入公众视野是在2022年底gpt3.5发布,相比gpt3,他最大的进步就是“听得懂人话”了,这也是他爆火出圈的原因,而这,强化的其实就是“写作”这种很多人看不起的能力。

但是也正是这种很多人看不起的“偏文科”的改变,第一次让我们看到了AGI的曙光。

很多人应该都听过诺贝尔经济学奖得主,已故的著名认知心理学家丹尼尔·卡尼曼的“系统一”和“系统二”理论。

简单来说,系统一是启发式,直觉式的判断依赖于我们脑中广泛的经验和自动反应。系统1这种决策实际上在我们生活中占到了将近80%,甚至更多。心理学上有一个重大的论断,那就是人在大多数时候是无意识的。

系统二对应严谨的逻辑推理与可检验的答案,这也是为什么像O1、O3这类后训练模型会通过延长思考时间或增加推理深度,在那些有明确答案的闭合性问题上表现得越来越好;

敬爱的卡尼曼教授已于去年5月去世,享年90岁

但是,自推理模型发布以来,他们在创造性、过拟合问题上广受诟病,纵使刷分高的飞起,o3 mini号称达到人类排名300名的程序员水平,但是他在一个普通程序员手下看起来还是像个实习生一样。

因为现实世界远非一份题目可以涵盖,而是充满模糊性和不确定性的,很多时候正确的决策往往不是依靠于显式的逻辑推断得出的,恰恰需要系统一用更直觉、原始的方式去判断。

许多专家在解决问题时,一眼就知道关键点所在,但你问他为什么,他也不知道自己如何知道,这就是那种模糊不清,但又十分关键的战略判断能力。很多时候,系统一的能力深度甚至是先天的而无法后天习得的。这其实就对应了模型每一次都预训练,都是一次重生,

GPT-4.5在编程或数学运算上的表现没有出现什么质变,却展现了更灵动的创意和更细腻的情感交互能力,恰恰说明它在某种程度上拥抱了“系统一式”的直觉思考,这是我们看到的一丝希望,可惜,这条路已经走到尽头。

现在我们面临的问题是,虽能通过更多算力和巧妙算法扩展系统二,却依旧没有好办法去显著提升系统一——想让AI具备在混沌环境中抽丝剥茧、一语破的的“直觉洞察”,依然缺乏成体系的技术路径。

我们推测,既然像O1、O3这样的模型是基于GPT-4o这样的中等参数基座来做后训练,那么GPT-4.5规模更大、直觉性更强,下一步大概就会有“O4”或者“O5”之类的后训练版本,将GPT-4.5庞大的基础参数和更深层的推理链条整合起来,从而既拥有4.5的那份“直觉火花”,又强化了系统二思考能力,也许这将不再只是一个单纯的“推理模型”,而会成为更加全面、综合的智能体。

gpt4.5在代码上与o1差距明显

然而,这依旧无法回答我们最关键的问题:既然我们有方法把强直觉的基座模型与更强的逻辑推理结合起来,那么接下来要如何继续提升那份“神秘”的直觉?

目前看来,纯粹的预训练堆叠对系统一的增强并没有给出明确突破,提升推理能力的路数我们大致摸到门道,可怎么让AI真正学会人类那种浑然天成的“感性”与“洞察”,却仍然是一片茫然。

单靠加大算力或拉长训练时间,大概只是让系统二越爬越高,却依旧无法带系统一翻过那座尚未命名的高峰。

实际上,大部分人在理科和文科上都毫无造诣,学到顶尖的凤毛麟角,但就像理科生只要学到平庸就能创造一定的价值,而文科生只有达到顶尖才会创造极大价值一样。我想,模型也是如此,过得去的文科能力(GPT4)是平庸的理科能力的基础,而平庸的理科能力已经为我们提供价值,但是让模型真正具有心智,成为AGI乃至ASI,创造力、直觉远比推理重要和困难。

这也是为什么我认为deepseek R1 与gpt 4.5毫无可比性,因为,他们根本就不应该对比,他们是心智的两个维度。预训练和后训练不是相互对立的,而是一体的,有了好的基座模型才会有更好的推理模型

本文链接:https://ai2025.cc/chatgpt/272.html

GPT5GPT4.5GPT5官网GPT4.5官网

相关文章

网友评论