未来物理世界要实现AGI,一定是通过端侧智能。
面壁智能CEO兼联合创始人李大海在第三届中国AIGC产业大会上分享了他们的经验认知。
作为当前端侧智能的领跑者,面壁智能在过去一段时间以来可谓是进展频频。
他们发布了端侧模型MiniCPM驱动的面壁小钢炮超级助手cpmGO,MiniCPM也逐步开拓了手机、具身智能、AIPC、智能可穿戴设备等几个主流落地方向。
未来他们的愿景是让每一个设备都具备智能。至于如何实现?李大海在会上分享了背后的方法论。
为了完整体现李大海的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
中国AIGC产业峰会是由量子位主办的AI领域前沿峰会,20余位产业代表与会讨论。线下参会观众超千人,线上直播观众320万+,累计曝光2000万+。
话题要点
以下为李大海演讲全文:
DeepSeek成功最底层因素是三个“密度”
朋友们,大家下午好。我今天穿的T恤是我们公司面壁智能的文化衫,面壁这个名字就来源于《三体》,我们公司的三体迷把公司企业文化都“三体化”了,我们员工手册的名字就叫“这是面壁计划的一部分”。
今天很高兴能够在这里跟大家汇报面壁过去一年多的工作,自从参与创立面壁,开始在大模型这个赛道里长跑,真的非常有意思。因为才短短两年多,我们经历了许多的“非共识”,其中很多的“非共识”变成了共识,然后又涌现出更多的非共识。整个公司的发展过程,我们不断地在更新自己的认知,进行迭代。两年的时间,像是过了十几年。
今年有一个绕不开的话题DeepSeek。DeepSeek的成功,有着天时地利人和的多重因素,也有很多值得我们重点借鉴的先进经验,我们总结下来有三个方面的“高密度”:
第一,团队密度。能够在大模型领域突出重围的公司和组织,必须有足够高的人才密度,组建一支极客式的优秀团队,聚焦在大模型的底层技术上,进行深入地钻研。
第二,组织密度。组织密度讲的是组织目标的一致性,我用另外一个词叫“组织熵”。当一个组织里每个人的目标都不一样时,是熵最大的状态,那是最不理想的状态。最理想状态是上下一心,所有人目标一致,这样整个组织间协作非常高效。这是“足够高的组织密度”。
第三,高资源密度。不仅要给创新留出充足的研发预算,并且要保障团队能够非常长时间地聚焦于技术的钻研,持续进行技术的积累。
维持三个密度都足够高,才有可能在大模型的底层技术上有所突破。
DeepSeek是在云侧,践行非常高效的大模型组织;而面壁在端侧,也在开展十分令人兴奋的高效故事。
我们对大模型“知识密度”的洞察
面壁团队是从2019年开始all in大模型,2022年8月份公司正式成立,而后在2023年9月份就发布了第一个千亿级的GPT-3.5水平的模型,拿到了网信办第二批安全备案。
到了2023年年底的时候,看到大模型同质化越来越严重,我们开始思考面壁的核心竞争力是什么,差异点是什么。
因为从团队创立之初,高效就是我们骨子里的基因。早期还因为我们有很多大模型推理加速的工作一段时间被错归类为infra公司…… 高效这件事,好像天然就是我们骨子里信奉的东西,也是更加比别人能做好的事情。那么那段时间,我们做了“模型风洞”试验方面的创新性探索,发现我们的模型总是同等参数、性能更强。
大模型高效背后的核心指标,正是知识密度,并且我们把对大模型成长规律的观察总结为“密度定律”。
我们发现,大模型知识密度每3.3个月翻一番。大模型知识密度可以跟芯片的制程做类比,我们知道芯片的制程,就是计算密度在每平方厘米下有多少个晶体电子管的数量,它的电路有多少,可反映出就说明了它的计算能力的强弱有多少,这个密度越高,说明制程越高。而大模型的知识密度就越高,它的智能就越强。
当我们聚焦去做高知识密度模型,并且发现落在端侧具备格外的优势。因为端侧的算力是有限的,内存也是有限的,功耗也是有限的,这三个限制条件下,天生是带着镣铐跳舞,知识密度高,效果才会好。
未来物理世界实现AGI,一定是通过端侧智能
过去一年我们发布了九个端侧模型,在今年1月份的时候发布了全球第一个端侧全模态的模型,大概是8B大小的模型,这个模型能流畅运行在iPad上,可以实时流式的实时看,持续听,自然说,并且“看听说”的水平从多模态角度上达到了GPT-4o的水平,虽然解决复杂的逻辑问题层面上,还是跟云端模型有区别,但是在多模态能力上已经非常强。
从这个简单的例子里面看到,全模态大模型可以同时接收语音跟视觉的信号,基于语音跟视觉去感知周围的环境,同时以声音或者文字输出自己的答案。而将这样的全模态大模型部署在汽车、机器人等这样的设备上,就可以让汽车、机器人这样的设备成为一个能够同时去看、听、说的设备。
基于我们模型的工作,在今年3月份的时候,发布了纯端侧模型驱动的面壁小钢炮超级助手产品,首先在汽车上落地。
汽车是我们端侧模型落地的理想场景,因为汽车作为超级终端“智能体”来说是一种成熟的“具身智能”,我们认为在汽车上有非常好的发展空间。
面壁小钢炮超级助手可以在车上提供目前两种特别重要的能力。
第一个是端上不依赖网络的全天候指令助手,用户在车上所有的指令,都可以在端侧智能上做到及时响应。
第二是通过舱内舱外的摄像头、麦克风去感觉舱外环境和舱内车乘人员的指令和状态,根据这个感知去主动关怀他们。
这是一个感知、决策、执行三位一体的模型。几年以前智能驾驶就在提这个概念,端到端的模型给行业带来一些新的可能性。
通过摄像头感知舱外舱内的环境,在端侧有什么特别优势呢?
首先,汽车作为一个移动客厅,网络情况是不可能100%稳定可靠的。端侧方案可以不受网络的限制,随时随地做到感知。
第二,如果在云端,完成舱内舱外视觉信息视频流的感知回传,可能推理的成本不算高,但是高清视频流实时传输的带宽成本很高,其次背后也有大量的隐私信息,因此不仅成本高,还有很多隐私暴露的风险。我们纯端侧能够在隐私和成本上有很好的优势。
这个视频可以看到,纯端侧的面壁小钢炮可以陪大家走遍天涯海角,因为它不受网络的束缚,它是全天候的。
这个是我们从执行层面上的GUI Agent产品。我们既然已经有了端侧模型,我们就可以通过端侧去感知到屏幕上发生的行为,就能够帮助用户完成这些任务,完成这些任务的基础是像用户一样理解这些屏幕,通过这些方式本质上就能够像人一样,所以能够有很强的泛化性。同时因为是在端侧,所以用户屏幕上的信息是不会被上传到云端,隐私绝对有保证。
我也想借这个时间跟大家同步一下我们的认知。
为什么面壁过了两年,一直现在云端发展依然如火如荼的情况下,我们仍然非常聚焦于地做端侧。因为端侧是我们的信仰,我们相信未来端侧是有非常广阔的天地。同时我们也相信未来在物理世界要去实现AGI,一定要通过端侧智能。因为只有把大脑部署在设备的终端上,把大脑部署在机器人的指挥中枢,它才能够有最灵敏的感知,去做最及时的决策,才能做出最完美的应对,这是一个非常基础的事情。
目前我们的端侧模型,已经在汽车、部分机器人的场景、手机,还有一些新的智能终端,比如说离线的翻译机等设备上落地。
我们的愿景是要让每一个设备都具备智能。
好的,我的分享就到这里,谢谢大家!