行业观察|为榨干每一张GPU价值,火山引擎又进化了
创始人
2025-07-31 18:52:30
0

升级后的“模型单元”,可以为企业客户提供更高的吞吐效率、更低的算力成本。火山引擎的终极目标是AI工厂企业客户直接提供高质量、低成本的Token

文|吴俊宇 

编辑|谢丽容

既要更高的吞吐效率,又要更低的价格,市场上对推理算力的需求已经越来越现实明确了。

随着AI应用爆发,AI推理正在成为企业消耗的主要算力。国际市场调研机构IDC数据显示,截至2024年四季度,中国AI算力消耗结构中,57.6%已经是推理算力。

AI推理算力的价格已是决定企业AI产品核心竞争力的关键因素之一。然而,绝大多数企业获取和使用算力的方式,仍然粗放、低效且昂贵。

半导体和人工智能领域的独立研究机构SemiAnalysis 2024年10月曾在一份研究报告中提到,GPU(图形处理器)租赁仍是大部分企业使用AI算力的主流形式企业倾向于签订更长的合约期,提供更高比例的预付款,以此换取更低的租赁价格。

不过,这只是一种妥协方案。因为GPU租赁价格受芯片供需关系影响。短期合同灵活但价格波动大,长期合同稳定但会因芯片换代(如英伟达的GB200取代H200)导致资产贬值。

如何降低企业的AI算力使用门槛、成本?字节跳动旗下的云服务——火山引擎,一直在思考和探索解决方案。

7月30日,火山引擎在Force LinkAl创新巡展·厦门站发布了“企业自有模型托管方案”——企业可以通用火山引擎的MaaS(Model as a Service,模型即服务)平台火山方舟使用这一产品。这是一款针对大模型推理的解决方案,适用模型精调后的大规模推理。它的创新之处是,提供了升级后的“模型单元”产品。

“模型单元”是一种新的算力计量方式,它和Token推理算力计量单位,一个Token可以是单词、标点、数字、符号等)之间可以换算。这是直接租赁/购买GPU和调用Token之间的一种过渡产品形态。火山引擎通过把GPU“压榨”成了更小的算力单位,企业客户可以按需付费、节省成本

我们从火山引擎相关人士了解到,“模型单元”这款产品,2024年下半年开始筹备,2025年初打磨成熟。2025年7月中旬,“模型单元”产品再次升级。目前字节跳动内部业务,如抖音、懂车帝等都在使用。

简单理解这是通过云计算高效调度,让GPU的利用率变得更充分了。企业客户可以节省AI推理算力的使用成本。火山引擎可以更高效利用算力资源,获得更高的利润率“模型单元”需要云厂商高效调度自家AI Infra(AI基础设施),充分榨干GPU的性能。

火山引擎官网公布了它的付费规则,不同型号的模型单元都有自己的定价,可以按小时/月付费。它有两大优势:一是全托管。企业客户不用自己管理基础设施,算力使用门槛被降低了;二是弹性。企业客户可以按需使用算力,尽可能降低使用成本。

更“灵活”,才能“既要又要”

我们多方了解到,目前中国大部分企业获取AI算力通常有三类方式。

其一,自建IDC(数据中心)租赁/采购GPU。好处是拥有硬件绝对控制权。但问题是,GPU硬件供应链管理难度大,采购成本高,基础设施缺乏弹性。它的运维复杂度也高,尤其是GPU节点故障率显著高于CPU(中央处理器)节点。目前,一些对数据保密要求高的行业,比如政企、金融等,习惯这种方案。

其二,云上租赁GPU(不同规格、配置的云上GPU),包时/月/年或按用量计费。这需要关注GPU的配置和型号(如芯片型号A100/H800/H20等,硬件配置如内存、显存等)。互联网、零售、汽车、消费电子等行业的企业习惯比较倾向于这种公共云的租赁方案。这也是国内目前的主流方案。

其三,用API调用Token,按Token用量计费。它的使用门槛低,适合中小企业、个人开发者快速上线业务。目前,大部分AI应用的中小创业企业都采用了这种方案。但这对一些高并发量、大吞吐量的互联网业务来说,长期使用成本可能偏高。考虑到Token价格正在持续降低,这种方案未来的市场占有率会越来越高。

火山引擎此次升级后的“模型单元”产品,在市场主流的三种部署形式之间,找到了空白地带或过渡形式。

火山方舟及AI平台产品负责人李东然(化名)对我们解释,传统的“买卡”模式(包括采购GPU硬件、云上租赁GPU实例)下,企业为了应对业务最高峰的需求,不得不预付费包月、包年,7×24小时持有大量GPU服务器。今天大量企业刚从买卡模式走过来。因此,抽象出一层“模型单元”,他们相对更容易理解和接受。

“模型单元”和Token之间可以换算。企业首先要从自身业务出发,估算Token处理需求,然后再根据模型需要的性能指标(Token/秒、首个Token延迟时间)计算所需的“模型单元”数量。

它有包月、包时两种付费方式。这就像使用手机流量,既可以通过月租套餐满足日常需求,也可以通过流量包满足出境、视频等大流量突发需求。

相比采购/采购GPU、云上租赁GPU实例,“模型单元”能大幅地降低模型部署、性能优化、资源管理的难度,进而降低企业使用AI算力的成本。原因是,线上业务普遍存在“潮汐效应”,业务量一天内有高峰和低谷。上述传统模式下,企业为了应对流量峰值,必须按照最高标准购买和预留资源,这会导致在流量低谷期产生巨大的资源浪费。

相比于用API调用Token,“模型单元”性能确定性、资源可控度更强,大规模场景还有成本优势。2024年以来,Token调用价格下降已经超过90%。但这种付费形式还处于发展早期,它尚且存在不成熟之处——AI对话过程中,Token消耗量不稳定,价格波动幅度仍然很大。API服务通常对调用频率、并发次数和单次请求的Token长度也有限制。

企业使用“模型单元”,既可以通过“预付费”包月的方式,满足日常基础推理算力资源,获得低价;也可以通过按小时付费获得弹性资源,应对突发高峰流量。

火山引擎智能算法负责人、火山方舟负责人吴迪评价,企业客户使用这种方案,无需运维底层GPU资源,也不用进行复杂的网络和调度配置。企业客户还可以选择部署方式、弹性规则,控制Token时延和模型吐字速度且无需为业务低谷期付费,能实现更高的资源利用效率。

这一产品2024年10月开始筹备,2025年初打磨成熟。目前字节跳动内部业务,如抖音、懂车帝等都在采用这一产品,火山引擎部分外部客户也参与了内测——使用之后基础设施TCO(Total Cost of Ownership,总体拥有成本)均有一定程度的降低。

懂车帝有大量AI应用。其中,AI选车涉及汽车垂类知识和用户评价数据。为此,懂车帝算法团队基于开源模型训练出了AI选车模型。它部署到火山方舟“模型单元”托管后,获得了廉价、稳定的推理算力。懂车帝团队可以更专注业务创新本身。

榨干每一张GPU价值的真实逻辑

为何能够推出“模型单元”产品?因为字节跳动的AI Infra具备高效的调度能力——它能够充分榨干每一张GPU的算力。

国际市场调研机构Omdia 今年初发布一份报告显示,截至2024年末几家中国头部科技公司,手中都有10万枚以上的AI芯片。

如何让这些资源被充分利用,实现最高的调度效率,是每一家云厂商都在追求的目标。这需要将AI计算任务,精准、高效、动态分配给基础设施中的每一枚AI芯片。这些技术能力影响着各家推理算力的利润空间。

压榨每一枚芯片的token产出效率,是衡量云厂商AI技术实力和成本控制能力的直接指标。同一款芯片在不同的软件栈(如编译器、算子库)优化下,压榨出来的Token数量甚至可以相差3倍甚至更多。以英伟达今年官网披露的一份资料显示,H200芯片经过软件优化后,在短短一个月内,运行DeepSeek-R1的Token输出数量就提升了近3倍。

“模型单元”的逻辑与之类似。“模型单元”看似简单易用,但它的产研难度并不低。字节跳动内部AI业务的发展,直接催生了这一产品。

字节跳动内部业务使用大模型,有灵活性、多样性和成本控制等需求。李东然粗略判断,字节跳动的内部AI需求领先外部市场约“四五个月”。这意味着,火山引擎总是会先行遇见行业前沿的技术挑战,当外部市场需求逐渐浮现时,技术解决方案往往已经过了内部的大规模验证。它可以争取到宝贵的市场时间和技术窗口。

2024年下半年,抖音AI应用需求不断增长,豆包用户规模也位居国内首位,这些业务逐渐遇到了需要统一、高效部署各种精调模型的技术挑战。为此,2024年10月,火山引擎团队开始着手研发这一解决方案。经过内部极端场景反复验证之后,“模型单元”今年初打磨成熟,时至今日才被推出。

在这个过程中,字节跳动的产研团队解决了一系列技术问题——其核心目的都是提升推理效率,降低推理成本。

在基础设施层,需要将字节跳动所有GPU资源变成一个统一的弹性资源池,将这个资源池进行高效合理、市场化的调度,使其既能满足字节跳动内部业务需求,也对外提供服务。维持自身成本模型的健康,是对整个系统调度的重大考验。

在推理基础软件层,难点是将推理软件这个连接底层硬件和上层模型的桥梁全栈优化,这涉及算子层、框架层、调度层。火山引擎为此自研了一系列的高性能推理引擎。

在模型算法层,需要具备对各类主流开源模型的智能分析和无损量化能力这需要技术团队对不同模型算法原理的深入研究是模型推理成本优化的关键一步。

为降低推理成本,火山引擎采用了大量技术优化方案——如PD分离(模型输入和输出分离)架构、大规模MoE/EP(专家模型和专家并行)架构方式。PD分离架构的好处是,可以在多轮对话中降低重复计算,最终节省算力。

MoE/EP架构的好处是,每次调用模型时只激活一小部分专家模型和参数,并且把每个专家模型部署在不同AI芯片上并行计算,进而减少单卡压力,提高资源利用率。

火山引擎的技术体系,长期面临字节跳动内部业务的严苛考验。抖音、豆包等“国民级”产品带来了超高并发、超低延迟和极端成本的考验,这不断逼迫火山引擎的技术方案往前走。

“模型单元”本质上是将服务字节跳动内部超大规模AI业务的经验,转化为了对外销售的产品。它的竞争优势之一是,字节跳动的大规模AI Infra目前在行业内具备更高的吞吐效率、更低的算力成本。

今年初DeepSeek爆发后,几乎所有云厂商都上架了DeepSeek-R1。在同一张“试卷”上,DeepSeek-R1推理速度更快,意味着基础设施效率更高。AI基础设施创业公司TensorChord在今年3月28日的跑分评测显示,火山引擎吞吐效率更高相邻token平均间隔时长更短。火山引擎的每秒Token输出量甚至是一些厂商的2.6倍。

2024年5月,火山引擎带头将Token价格降低90%以上。这倒逼阿里云、腾讯云、百度智能云降价。一些厂商的推理算力甚至被打到负毛利。

一位字节跳动算法负责人今年6月曾对我们表示,火山引擎的推理算力的毛利率至少在50%以上,远高于行业平均水平。原因是,字节跳动庞大的内部业务,可以平摊基础设施的成本。火山引擎也能充分压榨芯片性能,让每一枚芯片压榨出更多的Token。

终极目标是AI工厂

Token,就像电力、流量一样,正在成为影响社会经济的重要资源。

一位政策研究部门人士今年7月曾对我们表示,相关部门正在考虑制定国家和社会的人工智能发展考核指标。其中,单位Token消耗对GDP的拉动效应、人均Token使用量、Token使用成本占人均可支配收入比重都是重要维度。

我们了解到,火山引擎AI Infra的创新思路是,以Token为最小单位,探索更高效的算力使用方式。

它的终极目标是,AI Factory(AI工厂)。其核心逻辑是,不希望客户再为复杂的硬件资源(GPU型号、服务器配置、网络)操心,而是希望直接向客户交付最终的业务价值——高质量、低成本的Token。因为企业借助大模型加速业务创新,直接的方式就是把模型部署到云端,直接获取Token。

AI工厂这一目标,是目前云计算和半导体技术发展的共识——今年3月,英伟达创始人黄仁勋在GTC(Nvidia GPU Technology Conference)2025大会提出了这个理念——AI Factory。

黄仁勋当时解释,AI工厂生产Token,AI工厂需要提升推理效率。推理受两个因素影响——X轴是单个用户每秒生成Token数量。Y轴是单位电力下生成的Token数量。X乘Y,数字越大效率就越高。一个AI工厂收入、利润是推理效率决定的。用越短的时间、越少的能源,生产越多Token,收入、利润就越高。

从租赁GPU到消费Token,这不仅是计费模式的变化,也是云计算技术的进一步演进。

李东然对此解释,AI对基础设施的要求,正在发生第三次迁移。企业最初习惯自建IDC,自己运维、训练、部署,这导致IT基础设施总体拥有成本太高。后来企业逐渐拥抱云计算,弹性购买资源进行训练和部署。今天,推理需求越来越大,企业希望把更多精力聚焦在业务上,提供更多“模型单元”等无服务器化(Serverless)的产品是必然趋势。

我们了解到,火山引擎内部长远的期待是,随着技术的持续演进,未来可以彻底屏蔽底层硬件的差异,做到用户“只需提供模型,就可以获得Token”。让AI算力的使用如同用水、用电一样简单自然。

“模型单元”是实现这一理想状况的过渡和桥梁。它将底层的硬件、复杂的软件优化、精细的调度能力全部打包,最终以一个可量化的“计算单元”形式交付。用户购买模型单元,其实就是购买标准化的“Token生产单元”。

李东然的观点是,现在还处在早期过渡阶段,火山引擎的终极目标就是,用AI工厂为客户直接提供高质量、低成本的Token

相关内容

热门资讯

女性成长与商圈发展“双向奔赴” (来源:中国妇女报)转自:中国妇女报  □ 中国妇女报全媒体记者 高丽  走出京津城际列车,穿过武清...
暴雨过后,车辆涉水如何申请保险... 蓝光超清高清流畅继续播放当前非Wi-Fi网络,继续播放将产生流量费用视频播放失败建议打开央视新闻观看...
古代当兵真的会是“... 还不知道:古代当兵真的会是“临时工”吗的读者,下面趣历史小编就为大家带来详细介绍,接着往下看吧~在中...
古代当兵到底是什么样的 当兵都... 古代当兵到底是什么样的,这是很多读者都比较关心的问题,接下来就和各位读者一起来了解,给大家一个参考。...
特斯拉季度营收迎十年来最大滑坡... 转自:中国经营网中经记者 夏治斌 石英婧 上海报道作为全球电动车领域的明星企业,特斯拉向来不缺外界的...