13日凌晨一点,OpenAI 悄无声息地发布了 OpenAI o1。
GPT-4o竟然被碾压至此!!!
GPT-4o竟然被碾压至此!!!
风声四起的Q*模型,最早的消息来自去年十一月份。而前段时间一直在预热,代号为“草莓”的模型也宣传在几周内的秋季发布。据官方消息,这个系列的模型可以推理完成复杂任务,并解决许多以前的模型解决不了的问题。今天,它们终于现出真身,以 o1 为正式名字,闪亮登场!
模型名字中的 o 指代的是 Orion「猎户座」,而 o1 名字中“1”的由来在开发文档中得到了解释:
For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1. 对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。有鉴于此,我们将计数器重置为 1,并将此系列命名为 OpenAI o1。
奥特曼在凌晨一点发推,「需要更多耐心的时代结束了!」
从官方发布的各种消息来看,这次突然发布的o1系列,三个型号分别为:
- o1,新的大模型天花板,过于强大目前不方便对外公开。
- o1-preiview,o1的预览版,可以立即提供给ChatGPT付费用户和API用户。
- o1-mini,速度更快、性价比更高,适用于需要推理和无需广泛世界知识的任务。
和往常一样打开 ChatGPT 官网,可以看到 o1 已经可以使用了。本次同时发布了两个版本,分别是 o1-preview 和 o1-mini,preview作为正式版本的预览发布,而 mini 版本就是一个体量更小、开销更小且速度更快的模型。
既然本次发布的模型侧重点是“推理”,o1的能力,究竟怎样?
那么,中秋节快要到了,我们让o1来帮我们计算一下要如何调休,能实现吗?
输入:今年中秋节是9月15日和9月16日,这两天是周一和周二,应该怎么调休?
事实上,在我提的这个问题里面,我给出的所有信息都是错误的。中秋节只有一天,仔细观察也能发现,具体的时间和星期几也都不对,o1会如何处理这个问题呢?
模型先进行了为时17秒的思考,最初,我们能看到模型在进行“头脑风暴”。「正在思考」的字样逐渐在「查看假期安排」、「核实日期信息」等推理步骤中切换。
根据解答可以发现,即使我给出的信息带有错误,模型也能及时根据真实的情况进行搜索分析,从而给出正确的答案。
现在,我们点开o1对话框上面的思考xx秒按钮查看模型完整的思考过程:
非常严谨!正确的日期信息、节日安排以及放假规划在推理过程中都得到了体现。
那么,针对之前各大AI大模型“华山论剑”的问题——13.9与13.11比大小,o1的表现如何?截止o1发布前的9月11日,GPT-4o仍然无法对这个问题给出正确回答。那么,o1会如何分析?
无论是分整数、小数比较,还是在不足位的部分补“0”,o1 都使用了人类生活中常用的推理方法,且给出了正确的答案及解释。
似乎这还远远没有到达 o1 能力的上限。我们再搬出2024年新高考一卷数学的压轴题,让 o1 尝试分析。
这一次,o1 使用了较长的时间进行分析,且三个小问需要分别解答。经过大约两分钟的推理,模型给出了三个小问的完整分析。
由于二三小问都是证明题,证明过程较长,这里就不展示所有的推理过程了。不过经过仔细比对,似乎 o1 真的能实现“自圆其说”,使用较为正确的推理策略。
经过进一步测试,倒数第二道导数大题能成功解决前两个小问,而第三问的解答中出现了步骤遗漏,给出了b>0的答案(实际的答案是b大于等于2/3)。
最后,我们再拿出之前问倒 GPT-4o 的阿里巴巴数学竞赛题对 o1 进行挑战。
这次,我们选取2024年数竞题目的前五题。
最后经过测试,只要能跑出答案,正确率差不多能有60% ,部分推理过程比答案简略的多,比如分类讨论的情况少了,导致答案错误。且在有些推理过程中o1会莫名其妙的停止推理不再回复,点刷新也没有反应。
根据官方发布的能力图可以发现,对于类似的数学竞赛 AIME,4o的正确率只有13.4%,而本次的 preview 版本能达到56.7% ,惊人的是,尚未发布的正式版 o1 居然有高达83.3%的正确率!比较其他能力如 CodeForce 算法竞赛等,对于这些复杂的推理问题,o1 的正确率来到了一个新的高度,比先前最强的 GPT-4o高出了几十个百分点,可以说,实现了全面碾压。
整体体验下来,o1 的推理能力确实很强,正确率很高。不过,o1 经常会在推理的过程中“宕机”,需要重新进行提问,可以是目前测试的人太多。
与GPT-4o相比,o1在数理化生、英语法律经济等各种科目都有不同成绩改进。
不过新模型的费用有些离谱:o1-preiview每周30条,o1-mini每周50条。
是每周,每周就能跑 30 条,看来 o1 模型推理成本很高了。
API 的价格上,o1-preiview每百万输入15美元,每百万输出60美元。
o1-mini会便宜一些,每百万输入3美元,每百万输出12美元。
输出成本都是推理成本的4倍,对比一下GPT4o,分别是5美元和15美元。
那么未来 o1 是否会成为主流?o1 绝对不止是一个普普通通的ChatGPT。
“在通往 AGI 的道路上,我们已再无阻碍。”
AGI 的新时代。
在今天,正式揭幕。