梁文锋不着急
创始人
2025-05-30 21:16:11
0

来源:中国企业家杂志

同行纷纷押注Agent,梁文锋仍保持深度求索AGI的定力。

|《中国企业家》记者 闫俊文

编辑张晓迪

头图来源|视觉中国

528日下午6时,DeepSeek在用户群发布公告,DeepSeek-R1模型已完成小版本试升级,欢迎前往官方网页、APP、小程序进行测试,API接口和使用方式保持不变。

《中国企业家》查询DeepSeek服务状态发现,528日晚间1033分,DeepSeek网页及APPAPI服务出现了5分钟的不可用状态,这是DeepSeekAPI服务最近两个月少有的卡壳现象

紧接着,529DeepSeek开源了R1最新0528版本,这是R1120日正式推出,时隔128,首次迎来的一次更新。

DeepSeek称此次更新为小版本升级”,至于外界更为期待的R2模型官方并未给出时间表。一位创业者告诉《中国企业家》,R1DeepSeek-V3模型能力的复现,R2模型可能要等到V4模型研发成功之后了。V3的上次升级是在今年的324日,V4目前尚未有推出时间表。

529日晚间,DeepSeek在官方公众号发表文章《DeepSeek-R1更新,思考更深,推理更强》根据文章给出的测试结果,更新后的R1-0528模型能力增不过,工具调用等能力方面仍有进化空间文章解释称此次更新的DeepSeek-R1-0528仍然使用2024年12月发布的DeepSeek-V3 Base模型作为基座,更新的重点是对模型进行了后训练,从而提升了模型的思维深度与推理能力。

与预训练对应,后训练是大模型训练的一个阶段这是当下大模型竞赛中的一个热度“赛点”

一位投资人告诉《中国企业家》,国内几家六小虎已经放弃了基座大模型的训练,但并不是放弃了大模型,而是放弃预训练,转而去加强后训练与微调的投入,以便让模型落地应用。

大模型领域你追我赶,领先周期可能只有36个月,猎豹移动董事长兼CEO、猎户星空董事长傅盛感慨大模型领域的激烈竞争大模型做成了海鲜生意,一个好的模型出来,大概3个月就会过期,因为别人总会上来,此消彼长。

当前,大模型本身难以商业化已成国内外投资机构、科技企业的共识,今年以来,无论是联想、腾讯、阿里亦或美国硅谷模型大佬OpenAIAnthropic谷歌,以及亚马逊、微软等,都纷纷斥资押注AI Agent

当外界已把目光转移向应用时,梁文锋和他的团队仍旧保持对模型本身深度求索的定力。

此次R1更新后,腾讯部署动作迅速。529日晚间,腾讯发布消息,称腾讯元宝、ima、搜狗输入法、QQ浏览器等多款产品率先接入DeepSeek- R1-0528

0528版本思考更深,推理更强

根据DeepSeek官网给出的测试结果,此次升级后的R1-0528模型能力猛增,成功超越目前国内最强模型阿里Qwen3,并且在数学、编程等能力上接近其他国际顶尖模型,如OpenAI最新的o3与谷歌最新的Gemini-2.5-Pro

相较于旧版R1,新版模型在复杂推理任务中的思考更深、效果更强的原因耗费的token数量增多,旧版模型平均每题使用12K tokens,而新版模型平均每题使用23K tokens。

这符合英伟达CEO黄仁勋的预估,今年3月,英伟达CEO黄仁勋在GTC大会上预测,Agentic AI的崛起,将推动算力需求暴增至少100倍。

此外,此次DeepSeek蒸馏了DeepSeek-R1-0528的思维链后训练Qwen3-8B Base得到了DeepSeek-R1-0528-Qwen3-8B。该8B模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528,超越Qwen3-8B准确率增加10%,与Qwen3-235B相当。

规模少了30倍,但准确率增加了10%,关键要素是DeepSeek-R1-0528的思维链官方称,该思维链对于学术界推理模型的研究和工业界针对小模型的开发将具有重要意义。

强化后训练模型的幻觉率也降低了。据DeepSeek官方DeepSeek-R1-0528与旧版相比,在改写润色、总结摘要、阅读理解等场景中,幻觉率降低45%50%左右。

前,R1模型让业内诟病最多的幻觉率。国外有一家名为Vectara的机构发布了一个大模型幻觉排行榜,该榜将模型幻觉数值从低到高排序,谷歌的GeminiOpenAIo3模型幻觉率最低,Deepseek-R1在第90名,幻觉率高达14.3%

上下文(context方面,此次R1-0528上下文长度与旧版本保持一致,仍为64K落后于OpenAI、谷歌以及月之暗面等国内公司最新模型的128k长度

202311月,月之暗面创始人杨植麟曾说过,模型参数数量决定计算复杂度,上下文长度决定模型内存大小。

更大的上下文规模,意味着模型记忆能力的提升,是工具产品化的重要标准,这对于模型落地Agent释放能力具有重要意义。

喧闹中的定力

梁文锋小步快跑的同时,美国科技公司对DeepSeek的看法也正在走向分化2初,DeepSeek发布R1模型带来的那场冲击潮,正在逐渐退散硅谷创业者和大公司CEO们也已逐渐找回自信。

DeepSeek测试更新版本前后脚,美国当地时间528日,英伟达公布最新季度财报,在财报会上,英伟达CEO黄仁勋称赞“DeepSeek-R1ChatGPT般越思考越聪明。

财报显示,一季度英伟达实现营收441亿美元,同比增69%,归母净利188亿美元,同比增26%。到529开盘,英伟达股价一度盘中上涨11%,最终收盘139美元,微涨3%

来源:AI生成

这次更新已和R1模型发布时对英伟达股价造成的重挫不一样了。目前,英伟达市值约为3.3万亿美元,收复了在2月失去的万亿美元市值。Agentic AI时代的到来,又让英伟达看到了广阔的市场前景。

除了算力领域,OpenAIAnthropic也在模型层面奋力赶上。

520日OpenAI CEO山姆·阿尔特曼自信地说:我不认为DeepSeek找到了比OpenAI更高效驱动AI的方法,OpenAI每年在效率方面取得不可思议的进步。”

Anthropic的一位员工在523日接受媒体采访时说,DeepSeek发布模型的时间比Claude 3 Sonnet9个月,如果我们现在重新训练相同的模型,或者与DeepSeek同期训练,我们也可以用500万美元或者其他人宣传的金额,来完成训练DeepSeek达到了行业顶尖水平,但并未超越,它只是利用了效率提升的红利。

529日的官方发文中DeepSeek承认,在某些方面,R1-0528仍与OpenAIAnthropic的最新模型有差距,比如工具调用方面,官方介绍,当前模型Tau-Bench测评成绩为airline 53.5%/retail 63.9%,与OpenAI o1-high相当,但与o3-High以及Claude 4 Sonnet仍有差距。

一位投资人预估,DeepSeek与国外公开的先进模型之间的差距可能在2个月到3个月,但实际差距可能还要多一些,但没有代差的差距。

整个AI领域的竞争仍在持续,但相比此前围绕底座模型的竞争,已有所不同。

整个5月,美国科技界颇为热闹,先是微软举办了Build 2025大会,紧接着谷歌举办了I/O大会,Anthropic发布Claude 4系列模型他们发布会的重点都与Agent有关

谷歌提出Agent的三个特点——个性化、主动性以及强大功能。微软提出Agentic Web并称,这是一个和移动、云等平台转变期类似的巨大变革Anthropic提出了Agent的四个协议:一通过API连接模型上下文协议(MCP);二Claude的网页搜索功能;三是开放文件API接口;四提示词缓存。

现在大模型的进展已经吸引不了一级市场投资人的了,必须讲述C端应用的故事,比如Agent上述投资人说。

Agent是强化学习的产品体现。近期,一位OpenAI的科学家在AI Ascent 2025中表示:“我们所做的模型训练类型是RL(强化学习),我们未来可能会被强化学习计算资源完全支配。”

尽管海外科技巨头和国内的投资机构都把目光移到了Agent身上,但DeepSeek仍专注模型本身,目前仍在AGI征程上“深度求索”。

20247月,发布DeepSeek-V2后,梁文锋在接受《暗涌》采访时曾说:“我们认为当下最重要的,是参与全球科技创新。长期以来,中国企业习惯于利用海外的技术创新,并通过应用层面进行商业化,但这种模式是不可持续的。这一次,我们的目标不是快速盈利,而是推动技术前沿的发展,从根本上促进整个生态的成长。”

彼时关于应用的话题,梁文锋说:“从长远来看,我们希望建立一个生态系统,让行业直接使用我们的技术和成果,其他公司基于我们的模型开发B2B/B2C服务,而我们专注于基础研究。如果产业链完整,我们无需亲自做应用。当然,如果有必要,我们完全有能力去做,但研究和创新始终是我们的核心优先级。”

一位接近DeepSeek团队的投资人告诉《中国企业家》DeepSeek团队约130人,大多2002年2003出生的国内高校毕业生,2000年以前出生的在团队内都算老人”。团队组织架构两层,决策中心是梁文锋本人30多个核心成员直接向其汇报,100多个数据工程师负责具体执行他们的特点是年轻有激情、热爱技术

2025年前,大模型创业潮起的最初几年,初创公司融资纷纷到美国谷歌高价挖人才从目前行业呈现的效果来看,这种做法并未达到预期

新闻热线&投稿邮箱:tougao@iceo.com.cn

特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。

相关内容

热门资讯

少儿美育:构建艺术认知的“生态... 转自:光明日报【艺点】●风有颜色吗?孩子们最初的反应充满童趣:“春天的风是嫩绿色,因为吹绿了柳枝”“...
在祖国的大花园里尽情绽放——记... 转自:光明网  光明日报记者 俞海萍 光明日报通讯员 柳素雯 宋歌  鼓点铿锵,琴音悠扬。5月31日...
六月新规,事关你我 ●新华社记者 齐琪 事关学前教育、“刷脸”识别、快递包装……6月起,一批事关你我的新规将施行...
工业和信息化部回应汽车行业“内... 据新华社北京5月31日电 近日,中国汽车工业协会发布《关于维护公平竞争秩序 促进行业健康发展的倡议...
童心向阳 筑梦未来 5月28日,四师师直幼儿园的小朋友与家长体验套圈游戏。 兵团日报全媒体记者 陈洋 通讯员 ...
想得再细一些、做得再实一些——... 转自:光明网  【党旗在基层一线高高飘扬】  光明日报记者 杨珏 李建斌 光明日报通讯员 王婕  山...
维护多边贸易体系成亚洲共识 转自:光明日报  为期两天的第三十届“亚洲的未来”论坛于5月29日在日本东京开幕,本届论坛的主题是“...
从好家风中汲取力量 五师八十一团园艺一连党支部宣传委员、妇联主席李婷婷:近日,我参加了五师双河市开展的“小家烛火耀兵团 ...
数字赋能·校企协同·平台驱动 ... 转自:光明日报  在“数字中国”纵深推进、“制造强国”建设全面提速的时代背景下,纺织产业正经历从“制...
女子逼男友签百万“分手费”,起... 转自:法治日报□ 本报记者 邢东伟 翟小功  前段时间,“男子被女友逼写百万借条未还被起诉”冲上热搜...
端午假期首日预计全社会跨区域人... 转自:光明日报本报北京5月31日电 记者訾谦从交通运输部获悉,5月31日端午假期第1天全社会跨区域人...
5月份我国经济总体产出保持扩张 转自:光明日报本报北京5月31日电(记者董蓓)国家统计局服务业调查中心和中国物流与采购联合会31日发...
莱西公安“四头警务”打通“最后... 转自:法治日报□ 本报记者   曹天健□ 本报通讯员 宋学友 吴昊  眼下正是胡萝卜上市的季节,在山...
北京朝阳法院发布人身险纠纷案审... 转自:法治日报本报讯 记者张雪泓 近日,北京市朝阳区人民法院发布人身保险合同纠纷案件审判白皮书。白皮...
文化“活起来”,内容做出来,故... 5月26日至27日,2025文化强国建设高峰论坛在广东深圳召开。本届论坛主题为“深化文化体制机制改革...
数字技术与幸福生活 当前,数字技术正加快向农村延伸,成为推动农业农村现代化的重要引擎。从直播助农、电商带货,到远程医疗、...
“中华水塔·自然荣耀·野生动物... 本报讯(记者邢生祥)日前,“中华水塔·自然荣耀·野生动物”影像展首场展览在青海省西宁市举办。影像展以...
端午小长假 体育活动热商圈 5月31日,市民在活动现场参加大众旱地冰壶挑战赛。 端午节当日,2025年宁夏“体育赛事进景区...
工业和信息化部发文 推动算力互... 转自:光明网  光明日报北京5月31日电(记者刘坤)工业和信息化部日前印发《算力互联互通行动计划》,...
“一起说说心里话” “以前送快递路上,心里头像压着块石头,又累又憋闷。今天听老师解读《世界上最神奇的24堂课》这本书才发...