o3-pro正式推出!说声“嗨”就花了80美元,思考1+1用时16分钟
创始人
2025-06-11 11:18:33
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

OpenAI深夜放大招,正式推出“最新最强版”推理模型o3-pro

而且同一时间,o3模型降价80%不降智。

官方测评结果显示,在专家评估中,所有人一致更偏爱o3-pro而非o3的回答。

此外,o3-pro也一举超越o3、o1-pro,成为当前最擅长数学、科学和编程的OpenAI模型。

OpenAI CEO奥特曼也第一时间激动表示:

目前o3-pro已取代o1-pro,面向ChatGPT的Pro和Team用户开放,Enterprise和Edu用户将在下周获得使用权限。

而对开发者来说,o3-pro已经可以通过API接入:

每百万输入tokens收费20美元(约合人民币143元),每百万输出tokens收费80美元(约合人民币574元)

有多贵呢?

温馨提醒,据称一句简单的“嗨”就花了网友80美元(doge)。

或许OpenAI也意识到这个价格确实有点贵,所以另一边赶紧宣布o3降价80%。

o3降价80%不降智

官网显示,o3的最新API价格如下:

每百万输入tokens收费2美元,每百万输出tokens收费8美元。

对比o1-pro下降了80%以上,不仅是o3-pro的1/10,而且和GPT-4o(每百万输入/输出分别为2.5美元和10美元)基本持平。

至于降价原因,明面上的说法是OpenAI对推理服务架构进行了全面优化。

就是说,虽然o3和o3-pro底层模型相同,但由于推理更高效,所以价格自然就下调了。

不过,就在奥特曼对这一价格“沾沾自喜”时,关于o3“是否真的没有降智”却陷入了争议。

网友们也是相当直白,在奥特曼这条推文底下直接表达了怀疑:

甚至有博主以亲身经历(暂无法确定真实性)出来发声,认为o3在实测中变笨了。

然而这一说法也遭到了其他网友的反驳,总体来看目前对峙双方并未就这一争议拿出实质性证据

虽然争议尚未讨论出具体结果,但一些关于o3-pro的测试结果已经新鲜出炉。

和开头所提一致,官方在更严格的“4/4可靠性”评估中也验证了o3-pro尤为擅长数学、科学和编程。

p.s. 这项评估需要o3-pro在四次尝试中(而不仅仅是一次,pass@1)正确回答问题~

不过官方也多次提醒,由于o3-pro可以使用工具,因此响应时间通常比o1-pro更长

这也和一众网友实测下来的感受相符,o3-pro确实变强了,能够解决一些其他模型无法答对的问题,不过由于响应变慢,价格也是真贵。

HyperWriteAI CEO让它思考“1+1=?”,结果往往需要耗时1分钟以上(第一次问甚至用时16分钟)

当然,这也恰好代表了o3-pro的错误打开方式。

不论是官方建议还是一些好的网友实测结果,都说明o3-pro更适合挑战一些有难度、有价值的问题

宾大教授Ethan Mollick分享了一个其他模型都曾铩羽而归的问题:从“SPACE”到“EARTH”制作一个单词阶梯。

这个游戏需要模型从“SPACE”到“EARTH”,每次只改变一个字母,单词真实有效且长度不变(右侧为解释“为什么这是一个合法的英语单词”)

而o3-pro成功完成了挑战,并且这不是模型通过联网搜索得到的答案(即通过推理得到)

另一位生物医学科学家也分享了与o3-pro合作开发免疫系统的例子。

作为对比,他也向o3提出了同一任务(要求先识别出人类天然免疫系统的关键局限性),结果表明o3-pro更胜一筹。

整体而言,通过ARC-AGI测试结果可以看到,o3-pro在高难任务上表现略好,但提升幅度不大,且成本随难度上升。

p.s. 这项测试主要考验AI在面对新问题时的抽象推理和问题解决能力~

奥特曼发小作文

有意思的是,同一时间奥特曼也火速发了一篇小作文——

题目为《The Gentle Singularity(温和的奇点)》,来探讨AI发展对人类社会的影响。

其主要观点包括下面这些:

1、2025年,我们迎来了能够真正进行认知工作的智能Agent,编写计算机代码的方式将彻底改变。2026年,我们很可能会看到能产生原创见解的系统;2027年,或许会出现能在现实世界中执行任务的机器人

2、到了2030年代,智慧和能源——即想法及实现想法的能力——将变得极其丰富。这两者长期以来一直是人类进步的基本限制;如果智慧和能源变得充足(加上良好的治理),理论上我们可以实现一切。

3、随着数据中心的生产逐渐自动化,智能的成本最终应该会接近电力成本。(很多人关心ChatGPT每次查询用多少能量;平均每次查询大约耗电0.34瓦时,大概相当于烤箱运行一秒多一点,或高效灯泡使用几分钟。此外,每次查询大约用水0.000085加仑,约等于十五分之一茶匙。)

4、相比AI,人类有一个长期且重要的优势:我们天生在意他人,以及他人怎么想、怎么做,而对机器却没什么感情。

5、从相对论的角度看,奇点是一点点发生的,融合是逐步进行的。我们正攀登那条技术指数增长的长弧线;向前看总觉得是陡峭的垂直,向后看则像是平缓的线,但其实它是一条平滑的曲线。(回想2020 年,如果那时我们说2025年会接近 AGI,听起来会很疯狂,但对比过去五年所发生的一切,也许现在的预测不那么疯狂了。)

6、我们(整个行业,不只是OpenAI)正在为世界构建一个大脑,它的极限将取决于我们的好点子。

7、OpenAI如今做的事情很多,但最根本的身份仍是一个超级智能研究公司

BTW,奥特曼最新推文有透露,原计划中的公开权重模型要推迟了。

嗯,又一个期货(doge)~

相关内容

热门资讯

福州上空现丁达尔光 光束如金 ... 在福州的上空,一幅宛如梦幻的景象悄然呈现。那是丁达尔光,如同一束金色的丝带,在云层间穿梭舞动。光束仿...
我驻印度使馆:坠毁客机上无中国... 转自:央视新闻客户端一架客机12日在印度古吉拉特邦艾哈迈达巴德机场坠毁。总台记者从中国驻印度大使馆处...
迦南智能:截至2025年6月1... 证券日报网讯迦南智能6月12日在互动平台回答投资者提问时表示,截至2025年6月10日,公司股东人数...
达安基因:不存在被控股股东及其... 证券日报网讯达安基因6月12日在互动平台回答投资者提问时表示,公司严格按照相关法律法规的要求规范运作...
云南省将推荐28人参加全国首批... 原标题:云南省将推荐28人参加全国首批县域普通高中头雁教师岗位计划评选近日,省教育厅印发通知,将推荐...
镜头直击丨印度失事客机上所有人... 转自:新华社印度航空公司12日证实,当天在古吉拉特邦艾哈迈达巴德机场附近坠毁的客机载有242人。据当...
摩通:多因素共同作用促使美股下... 格隆汇6月12日|摩根大通分析师表示,目前来看,油价上涨(新的地缘政治风险显现),加上大型科技股无法...
恒宝股份副总裁高强计划减持不超... 6月12日,恒宝股份(维权)(002104)发布公告,董事、副总裁高强因个人资金需求,计划自2025...
太原致1死2失联21伤事故非天... 转自:新京报我们视频 【#太原致1死2失联21伤事故非天...
日科化学:公司主要产品ACR系... 证券日报网讯日科化学6月12日在互动平台回答投资者提问时表示,公司始终重视产品的市场表现与客户需求,...
云南中医药大学急救知识科普志愿... 为进一步提升农村居民急救预防意识与应急救灾自救能力,云南中医药大学急救知识社科普及志愿服务队于端午节...
汉国置业(00160.HK)预... 格隆汇6月12日丨汉国置业(00160.HK)公告,集团预计截至2025年3月31日止年度预期重估前...
多利科技(001311.SZ)... 多利科技(001311.SZ)发布公告,为贯彻落实战略规划和发展目标,进一步丰富产品结构,完善业务布...
特朗普:“大而美”法案将削减1... 格隆汇6月12日|美国总统特朗普在社交媒体最新发文:“这项伟大、宏大、美好的法案将以前所未有的速度推...
中国巨石子公司拟投1.92亿元... 6月12日,中国巨石(600176)发布公告,公司的全资子公司九江钙业拟实施熔剂用灰岩矿项目,项目总...
“影视+文旅+新消费” 《长安... 中新网北京6月12日电 (记者 高凯)“一骑红尘妃子笑,无人知是荔枝来”,时值荔枝上市的季节,聚焦于...
言短意长|电商正置刘楚昕于尴尬... 今天早上刷抖音的时候就发现一个新情况:当当网官方旗舰店的广告不时就会穿插在我刷的视频中。内容就是漓江...
滨州市工业技术改造推进会议召开 滨州日报/滨州网讯 6月12日,全市工业技术改造推进会议在邹平市召开。市政府副市长吕明涛出席会议并讲...
江西省景德镇市人大常委会原主任... 中新网6月12日电 据江西省纪委监委消息,经中共江西省委批准,江西省纪委监委对景德镇市人大常委会原党...
古桂为证 新风为聘 安徽探索婚... 转自:中国民政  绿水青山为背景,千年古桂作见证——刚刚过去的“5·20”,6对新人在安徽省南陵县家...