(转自:老司机驾新车)
1、GPT5模型升级与发布分析
·技术升级方向:GPT5在技术层面有多处升级。推理链条上,会根据用户提问和历史习惯,使推理更个性化,解决回答啰嗦或简单的问题。模型编排方面,以agent形式合并相关模型,为用户提供全能体验。多模态层面,提升理解能力,因OpenAI正拓展B端业务,B端对理解能力需求更高。参数规模从接近2万亿提升至3 -4万亿(原目标5万亿)。此外,GPT5强调通用推理能力,从理工科逻辑拓展至更泛化层面,应对Grok等模型竞争。
·发布时间推测:奥特曼曾预计2025年夏天发布GPT5,但结合技术讨论和进展,暑期发布可能性低。推测2025年下半年发布概率60%,更可能在10-12月,11月底至12月初概率最大,或与2022年底发布节奏类似。日常小版本会陆续更新,底座模型发布更倾向下半年。
·C端策略与行业影响:GPT5基础版或免费开放,将降低C端门槛,拉大与其他公司差距。当前类似研究和报告功能月费超千元,免费策略或倒逼国内模型调整收费模式。
2、Grok 4模型表现与挑战
·模型评分与争议:Grok 4在AGI测评中得分45%,为Gemini 2.5的两倍以上。但部分评分参考意义有限:其代码评分虽效果较好,但所用数据集已非业内通用;奥赛评分结果突出(跑至第一),但奥赛题目数量少。综合来看,当前模型评分的可靠性存疑。
·模型特性与迭代需求:Grok 4被认为是全球输出最自由的模型,其受限少的能力在海外推广中被依赖。但正式版本仍需一轮次迭代调整,以完善功能。
·未来发展方向:Grok 4后续将保留当前输出特性,推进多模态升级,提升推理速度。
3、谷歌VIVO 3视觉模型分析
·技术创新与用户体验:VIVO 3视觉模型有显著技术创新,改变了传统视频生成流程。传统做法需经图像生成、动画配置、配音及口型匹配等多步骤完成视频制作,而VIVO 3支持文字输入生成音画同步视频,能精确匹配声音细节,如切胡萝卜声、雨滴声等,文字细微变化均可在视频中体现。其底层依赖对大量物理规则的学习,且对Youtube数据的收集和处理较此前谷歌系列模型有明显提升。该模型虽未达世界模型的复杂程度,但能为其提供基础,有望在此基础上拓展深化。
·推广限制与国内跟进:VIVO 3模型推广受限,一是价格高,会员月费前几个月约1500元,后续涨至2000元以上,成本过高;二是使用障碍,该模型封锁全球大部分国家IP,翻墙也难访问。国内阿里、字节等厂商有望在3-6个月内推出效果接近VIVO 3(约90%效果)的产品。
·算力与数据需求:VIVO 3模型训练对算力需求大。按三个月左右迭代一个大版本估算,训练所需算力折算为A100卡约2-3万张。国内不缺视频数据,字节、快手等平台有丰富视频生态,可提供大量真实、杂乱的视频用于训练。但国内厂商算力分配受限,如字节虽卡充足,但要研发十几款模型,分到该模型的卡数可能不足谷歌一半。因此,国内厂商可能需优化模型架构,在卡数少的情况下实现接近VIVO 3的性能。
4、英伟达Cosmos世界模型进展
·全栈技术布局:英伟达在物理AI领域采取全栈式技术路径,从硬件到软件实现纵向整合。硬件层面,其边缘算力平台持续升级,早期算力不足100TOPS,当前已接近1000TOPS,下一代将接近2000TOPS,为物理AI向物理世界部署提供强大支撑。软件层面,涵盖系统、仿真引擎及模型,既提供与机器人仿真相关的框架,也包括从支架到机器人底层机动(更多实时纪要加微信:aileesir)模型等技术(部分对外提供,部分不对外提供)。同时,其技术路径与Omniverse结合,形成芯片、边缘芯片、系统、软件、仿真引擎、模型的协同布局,具备覆盖硬件 软件 生态的综合优势,被认为是当前物理AI技术发展的核心方向。
·平台生态与应用进展:Cosmos平台呈现动态更新特性,平台上的模型家族及定制化数据集丰富,覆盖自动驾驶、机器人操控、摩擦力等场景,且每隔一两周便有新变化,已从单一框架或软件发展为生态体系。在工业场景应用中,英伟达针对搬运、分拣、存放等需求,开发了N1.5底层模型架构,提升了相关场景在不同车间(如汽车车间、纺织车间)的适应性。目前,弗列耶、波士顿动力等企业已使用该技术进行验证、开发和部署。
·数据生成与规则学习:Cosmos在物理AI数据生成上有两大创新。其一,针对仿真数据难以覆盖所有物理规则(如数学、物理、化学、生物规则)的问题,通过集成基础物理规则模块(如运动力学、流体力学相关模块),利用强化学习让模型自主探究未知规则,生成更符合现实环境的数据。其二,开发Brooklyn框架,通过将人类观察世界的视频输入,使机器人能将视频画面转换为与机器操作相关的运动轨迹数据,解决了物理AI训练数据缺乏的问题。
5、国内外大模型技术趋势对比
·技术迭代驱动因素:国内外大模型技术迭代驱动因素存在差异。国外在DeepSeek之后,因面临Cloud、Google等竞争压力,重新进入比拼底层模型技术的迭代过程,此前部分躺平的厂商如Meta也加速投入。国内在DeepSeek之前,产业界和学术界认为受算力、数据等限制,难以在各领域做出原始创新,通常晚于国外3 6个月实现同类模型(达80% 90%能力)并针对本土优化。DeepSeek之后,国内企业分化:部分企业因资源有限,将重点转向底层技术,减少对应用端的关注;部分企业则放弃底层技术,转向应用与商业化。预计国内“六小龙”到2026年可能仅剩3 -4家。
·未来技术展望:未来技术与应用趋势需认清自身技术能力及应用适配性。当前领域难点在于明确技术能力边界及可支撑的应用类型,基于此推进不算弯路。应用层面,B端因结构化数据优势成为发力重点(此前B端表现弱于C端,易被其他厂商借助资源抢占),其数据更易支持垂直应用迭代加强。技术层面,期待大模型底层能力出现90-95分的模型(如Grok系列、GPT最新模型、国内DeepSeek模型、字节模型等),若在2025年或2026年上半年出现,行业发展将较为顺畅,前景光明。
6、端侧AI应用场景与模型进展
·端侧模型技术突破:端侧模型技术在小参数优化方面取得突破,主要路径包括通过蒸馏技术将强能力大模型以小参数形式表达,以及对原本较弱的小参数模型先进行强化学习使其具备一定能力,再通过大模型增强,从而提升小参数模型性能。技术突破显著提升了开发效率,以往手机端AI应用从立项到验收需半年至大半年,目前仅需几周即可完成。此外,2025年模型发布形式发生变化,各家以模型家族形式发布,单次发布模型数量通常达5个以上,甚至超10个,其中多为针对端侧场景的小参数模型。
·典型应用场景:端侧AI重点应用场景主要集中在智能穿戴和智能家居领域。智能穿戴方面,眼镜自2024年底至2025年在使用舒适度上有显著提升,实际体验较以往改善明显;耳机等其他穿戴设备的落地也需重点关注使用舒适度。智能家居方面,以小米智能家庭面板为例,其此前依赖云端AI能力时已供不应求,集成大模型功能后,价格预计从历史稳定的300元(最低290 295元)涨至450元左右,目前预定数量及市场关注度仍较高,体现出AI功能对产品价值感知的提升。此外,包括字节等涉及硬件的企业相关需求也较大,AI能更直接地影响生活和家庭场景。
·产业链发展趋势:端侧AI产业链呈现延伸发展趋势,相关企业业务范围逐步拓展。以往仅专注芯片研发的企业,开始涉足模组生产,部分企业进一步跨越到整机产品制造,国内也已形成一批表现突出的端侧AI解决方案企业,部分企业与大模型平台合作推进相关开发,产业链条正逐步完善。
7、大模型幻觉率问题与解决
·幻觉率分类与现状:大模型幻觉分三类:存在性幻觉,即判断物体是否存在;属性幻觉,即判断物体颜色、形状等属性;关系幻觉,即判断物体间关系(如桌子上有杯子、车在路上开)。前两类幻觉较易解决,过去在大模型发展中受较多关注,国内模型前两类幻觉率平均在5%-15%,部分表现好的模型可降至5%以下。第三类关系幻觉问题突出,缺乏权威测试工具,依赖学术研究(如香港科技大学等机构发布的数据集)。部分主流模型(如阿里、Google的模型)关系幻觉率达40%-50%,且不易发现,未来可能在支架、机器人领域引发灾难。
·降低幻觉率方法:降低幻觉率方法有训练阶段干预和生成时围栏机制(如英伟达提出的机制)。针对关系幻觉,需大量图文描述数据(全球相关数据集不足10个)。筛选分类此类数据,结合训练干预与生成围栏机制,可降低感知和认知层面的关系幻觉。可参考香港科技大学关于关系幻觉的研究工作深入探索。
8、垂类模型应用方向与进展
·医疗领域应用:医疗垂类模型进展较快,需求可聚焦细分场景,如针对乳腺癌、妇科相关癌症等,前五大癌症需求占比达99%,甚至可仅针对第一大癌症在全国妇科相关医院推广。自2025年3月起进展加速,目前多数结果未公布,预计2025年底至2026年上半年集中公布成果。医疗领域对AI的核心需求是减轻医生负担的诊断类模型,如解决罕见病、胃病的诊断模型,对导诊、问诊等应用兴趣较低。
·工业与教育应用:工业领域中,视觉质检进展快,逻辑清晰,关键指标为未知故障检出率、检出速度及已知故障检出率。年产值500亿以下的钢铁企业,每年AI预算约2亿元。教育领域,解题及为教师、学校减负的应用推进良好;面向C端的教育产品虽在京东等平台有销售,但实际买单程度有差距。
·办公与ToB场景:办公场景中,AI PPT工具进展快,使用体验每月变化,能提升生产力。ToB场景中,电商客服、企业财务(如发票处理)、招聘等领域应用效果好,如客服解释回答、财务发票处理等场景表现不错。
Q&A
Q: 基于当前信息及奥特曼此前访谈内容,后续可能推出的新模型将有哪些升级及核心看点?
A: GPT5目前技术层面仍处于训练阶段,主要升级方向包括:优化推理链条,根据用户提问及历史使用习惯实现个性化推理,提升用户体验;通过agent编排形式整合系列相关模型,向用户呈现全能使用体验;聚焦多模态理解能力提升;参数规模计划从接近2万亿提升至3-4万亿;推理性价比较7月10日左右的新版本更突出。核心看点包括:强化通(更多实时纪要加微信:aileesir)用推理能力;基础版能力免费开放。发布时间预计今年下半年或明年春节前。
Q: 马斯克披露将于7月4日发布Grok 4模型,其官方提到该模型在AGI测评中得分为45%,如何评价这一得分,以及该水平对Grok模型出圈和应用可能产生的影响?
A: Grok 4模型虽此前已计划发布,但当前版本仍需进一步训练,正式版本或缺少一轮迭代调整。评分方面,其代码评分使用的数据集已非业内通用标准,参考意义有限;奥赛题目数量较少,高分结果参考价值亦不突出。实际应用中,Grok模型因输出限制较少的特性被大规模使用,目前仅其能满足部分产品的特定能力需求,该特性后续或持续保留。未来Grok模型将推进推理模型升级、多模态功能优化及推理速度提升。综合来看,当前Grok 4模型宣称的全球第一评分可靠性不足,对其评分持中立态度。
Q: 谷歌5月发布的vivo三个视觉模型相较于此前的动态模型具体有哪些维度的升级?目前谷歌在该最新视觉模型上的投入、算力及数据情况如何?
A: 该模型未广泛爆火的主要原因包括高定价及IP限制。在体验升级方面,模型突破传统流程,将图像生成、动画配置、配音及口型匹配等环节整合为一体,支持用户仅通过文字输入即可生成包含图像、声音、文字的多模态视频,并能精确呈现文字描述的细节,底层依赖对物理规则等大量规则的学习。数据层面,模型在YouTube相关数据的收集与处理能力上较此前谷歌系列模型有显著提升,其定位为世界模型的基础,未来将在此框架下进一步拓展深化。当前该模型在视频模型领域局部维度排名第一,综合维度位列前二。国内厂商因模型架构复杂度有限,预计3-6个月内可推出具备该模型90%效果的产品。
Q: 谷歌该产品定价较高是否与算力成本相关?VIVO3在数据维度是否依赖特定数据源或算法?国内相关模型研发进展如何?
A: 此类模型算力消耗较大,按三个月迭代一个大版本的常规节奏,算力需求约为2万至3万张A100规模。数据层面,谷歌具备优势,但国内并不缺乏VIVO3训练所需的真实视频数据,字节、腾讯、快手等平台拥有丰富视频生态。国内主要缺口在于算力资源,尽管字节算力储备充足,但需分配至多个研发项目,实际用于此类模型的算力可能不足谷歌的一半。国内可能通过调整模型架构,在有限算力下实现接近性能;当前算力规模具备研发可行性,快手、字节已开展相关研发,但产品尚未发布。
Q: 今年底层技术升级的主要原因是什么?对后续技术升级及模型能力提升有何判断?
A: 今年底层技术升级的主要触发点源于DeepSeek事件后的行业格局变化。此前国内普遍认为受限于算力与数据差距,技术领域多以追赶国外为主,难以实现原始创新;国外则因资源丰富,部分厂商存在技术投入放缓现象。DeepSeek事件后,国内外发展路径分化:国内企业因资源有限,难以兼顾技术与应用,部分六小龙企业预计明年缩减至不超过四家,部分转向专注技术研发或聚焦应用商业化;国外厂商因竞争压力重新加速底层模型技术迭代,恢复技术投入。这一分化推动国外模型发布节奏与能力自今年三四月份起出现显著变化。
Q: 当前国内外大模型领域技术与应用策略调整的变化,对后续技术发展及应用落地的趋势将产生何种影响?是更健康推进还是会经历更多弯路?
A: 短期内可能会经历一定弯路,主要因领域投入大,需基于现实因素做出权衡选择。但核心难点在于认清自身技术能力边界及可支撑的应用范围,只要以此为基础推进,路径均属有效探索。当前行业重心向B端倾斜,因B端数据更结构化,便于开发垂直应用及迭代优化。若今年或明年上半年能出现90-95分的大模型底层能力,则整体发展前景将较为光明。
Q: 如何看待后续端侧场景与底层模型融合的升级进展?未来端侧应用场景中,哪些业内进展有望落地,或可能成为媒体关注重点?
A: 端侧场景涵盖机器人、家居、戒指、眼镜、耳机等,其落地关键在于使用舒适度。底层模型升级方面,今年通过小参数模型实现强能力已形成明确路径:以DeepSix为起点,行业掌握了将R1、OpenAI O1/O3 Mini等强模型能力迁移至小参数模型的方法,并通过先蒸馏、再用大参数增强小参数模型的方式,使弱小模型达到O1 Mini效果,大幅提升开发效率。模型发布形式从去年单次1-3个转向今年家族式发布。应用层面,小米智能家庭面板接入大模型后,价格从300元涨至约450元,预定热度与品(更多实时纪要加微信:aileesir)牌关注度极高,反映硬件端对AI价值的强需求。此外,模型侧开发慢、集成难问题已解决,眼镜、耳机等设备舒适度与能力同步提升;国内端侧AI解决方案企业发展迅速,产业链从芯片向模组、整机延伸,形成完整链条。