摘要
进入2026年,随着AI算力集群全面向更高算力密度演进,1.6T光模块步入规模化放量元年,上游核心元器件(DSP、EML、硅光产能与隔离器)的供应正面临新一轮的趋紧态势。
【DSP:博通与Marvell双寡头垄断,先进制程产能成瓶颈】
数字信号处理器(DSP)是光模块中进行高速信号恢复和非线性补偿的核心芯片,其性能直接决定了光模块的传输距离和功耗。当前,高端DSP赛道呈现极度集中的寡头垄断格局。
供应格局:市场呈现博通(Broadcom)与Marvell(通过收购Inphi)的双寡头垄断格局。博通和Inphi凭借深厚的SerDes IP积累和PAM4编解码算法,几乎垄断了头部云厂商的1.6T DSP供应份额。1.6T主流方案200G DSP博通表现更优,其400G DSP已发布上市,技术优势明显。
趋紧逻辑:代工产能限制。在1.6T时代,DSP芯片的制程工艺已推进至5nm甚至3nm,技术壁垒极高。无论是博通还是Marvell,其先进制程DSP均高度依赖台积电(TSMC)的先进封装产能。目前台积电的先进制程产能被全球AI芯片(GPU/ASIC)挤压,DSP厂拿到的晶圆配额极为有限,DSP芯片的流片和交付周期被大幅拉长,直接卡住高速光模块放量节奏。
【EML:海外住友主导,国产加速突围】
对于传统分立方案(单波200G),EML(电吸收调制激光器)芯片是发光端的核心器件。1.6T光模块主流的方案为8x200G,这对EML芯片的带宽、啁啾效应和可靠性提出了极高要求。
海外巨头产能保守:日本住友(Sumitomo)等美日企业长期主导全球高端EML领域,掌握着高良率和底层材料Know-how能力。然而传统日系大厂在面对AI激增的需求时,产能扩充策略相对保守,无法完全满足1.6T爆发带来的庞大缺口,高端EML供需出现剪刀差。
国产替代加速:海外供给趋紧的背景下,国内光芯片企业加速突围,如索尔思光电、长光华芯在EML芯片领域具有深厚的IDM(垂直整合制造)能力,正在快速推进高端EML的送样与量产,成为填补缺口的重要力量。
【硅光产能:Design百花齐放,FAB资源重要性凸显】
1.6T率时代,硅光(SiPho)方案凭借其高集成度和低成本优势渗透率加速提升。与传统分立器件不同,硅光的产业链高度类似半导体产业,分为设计(Design)和流片(FAB)两端。
Design 端,设计阵营多样化。头部光模块厂商:中际旭创、新易盛自有硅光芯片设计团队实力强劲;第三方设计公司:赛丽科技和羲禾科技(Xphor)是国内领先的硅光芯片设计公司,它们为部分模块厂商提供标准化的硅光裸片或倒装焊芯片。
FAB 端,代工产能争夺:Tower Semiconductor是目前硅光流片的核心代工厂。Tower拥有成熟的硅光工艺平台,凭借其高可靠性和较好的PDK(工艺设计套件)支持,承接大量硅光设计公司订单。能否提前锁定Tower的晶圆代工产能(FAB Capacity),成为影响光模块厂硅光1.6T实际交付能力的重要因素。
【隔离器:高功率光源爆发下的隐形咽喉】
光隔离器(Isolator)主要用于防止反射光对激光器造成损伤和噪声,是高速光模块中不可或缺的无源器件,正成为高速率光模块交付的“隐形瓶颈”。
紧缺原因:高速场景的硬需求增加。1.6T时代高速光模块中高功率光源的普遍应用,使能隔离反射光的隔离器成为必不可少的关键元件,尤其是硅光方案的大规模应用,因硅光波导的反射极强,易导致外置CW光源失锁甚至烧毁,因此必须在光源和硅光引擎之间加入高性能隔离器。
制造壁垒与产能极限:隔离器高度依赖法拉第磁光效应材料,且涉及到极其精密的亚微米级光学组装与镀膜工艺,上游稀土原材料及特种光学材料的供应链高度集中,且扩产周期较长,成为高速光模块产能扩张的卡脖子环节。
1.6T光模块进入规模化放量元年,上游核心元器件供应整体趋紧。DSP领域寡头垄断,受AI芯片产能挤兑交付周期大幅拉长;EML方面,日本住友等主导高端市场但扩产保守,国内厂商加速突围填补缺口;硅光方案渗透率提升,Design端光模块龙头自研及第三方设计百花齐放,FAB端Tower晶圆产能成为交付关键;隔离器作为隐形咽喉,进一步制约高速模块产能释放。头部光模块厂商凭借硅光自研和供应链控制能力,在1.6T放量周期持续扩大优势。
我们继续看好光+液冷+太空算力,这三个方向按产业发展阶段,其所对应的风险偏好依次提升。继续推荐算力产业链相关企业如光模块行业龙头中际旭创、新易盛等,同时建议关注光器件“一大五小”天孚通信+仕佳光子/太辰光/长芯博创/德科立/东田微,建议关注国产算力产业链,如其中的液冷环节如英维克、东阳光等。
建议关注:
算力——
光通信:中际旭创、新易盛、天孚通信、太辰光、腾景科技、光库科技、光迅科技、德科立、联特科技、华工科技、源杰科技、剑桥科技、铭普光磁、东田微。铜链接:沃尔核材、精达股份。算力设备:中兴通讯、紫光股份、锐捷网络、盛科通信、菲菱科思、工业富联、沪电股份、寒武纪、海光信息。液冷:英维克、申菱环境、高澜股份。边缘算力承载平台:美格智能、广和通、移远通信。卫星通信:中国卫通、中国卫星、顺灏股份、海格通信。
IDC:润泽科技、光环新网、奥飞数据、科华数据、润建股份。
母线:威腾电气等。
数据要素——
运营商:中国电信、中国移动、中国联通。数据可视化:浩瀚深度、恒为科技、中新赛克。
风险提示:AI发展不及预期,算力需求不及预期,市场竞争风险。
1.投资策略:
光模块:1.6T放量在即,上游再趋紧
本周建议关注:
算力——
光通信:中际旭创、新易盛、天孚通信、太辰光、腾景科技、光库科技、光迅科技、德科立、联特科技、华工科技、源杰科技、剑桥科技、铭普光磁、东田微。
铜链接:沃尔核材、精达股份。
算力设备:中兴通讯、紫光股份、锐捷网络、盛科通信、菲菱科思、工业富联、沪电股份、寒武纪、海光信息。
液冷:英维克、申菱环境、高澜股份。
边缘算力承载平台:美格智能、广和通、移远通信。
卫星通信:中国卫通、中国卫星、顺灏股份、海格通信。
IDC:润泽科技、光环新网、奥飞数据、科华数据、润建股份。
母线:威腾电气等。
数据要素——
运营商:中国电信、中国移动、中国联通。
数据可视化:浩瀚深度、恒为科技、中新赛克。
本周观点变化:
本周海外算力板块承压。全球宏观环境波动及油价上升引发市场担忧,本周股市普遍承压:英伟达本周股价累计下跌3%,博通本周股价累计下跌3.2%,谷歌股价本周累计下跌9.3%,meta股价本周累计下跌12.6%。光通信板块前半周相对强势,周四周五股价承压,Lumentum本周累计下跌0.5%,coherent股价本周累计下跌4.5%。受益于光纤价格的持续上涨,康宁股价逆势走强,本周股价累计上涨9.8%。
我们继续看好光+液冷+太空算力,这三个方向按产业发展阶段,其所对应的风险偏好依次提升。继续推荐算力产业链相关企业如光模块行业龙头中际旭创、新易盛等,同时建议关注光器件“一大五小”天孚通信+仕佳光子/太辰光/长芯博创/德科立/东田微,建议关注国产算力产业链,如其中的液冷环节如英维克、东阳光等。
2. 行情回顾:通信板块下跌,云计算表现相对最优
2026年03月23日-2026年03月29日上证综指收于3913.72点。各行情指标从强到弱依次为:中小板综>万得全A(除金融,石油石化)>万得全A>上证综指>创业板综>沪深300。通信板块下跌,表现弱于上证综指。
从细分行业指数看,云计算上涨2.1%;移动互联、光通信、通信设备、运营商、物联网、区块链、量子通信、卫星通信导航分别下跌0.8%、1.4%、2.4%、3.1%、3.1%、4.7%、5.2%、5.5%。
本周受益于光纤概念,亨通光电上涨14%,领涨板块;受益于光纤概念,通鼎互联上涨13%;受益于区块链概念,光环新网上涨12%;受益于光伏概念,琏升科技上涨9%;受益于光纤概念,特发信息(维权)上涨7%。
3. 光模块:1.6T放量在即,上游再趋紧
进入2026年,随着AI算力集群全面向更高算力密度演进,1.6T光模块步入规模化放量元年,上游核心元器件(DSP、EML、硅光产能与隔离器)的供应正面临新一轮的趋紧态势。
【DSP:博通与Marvell双寡头垄断,先进制程产能成瓶颈】
数字信号处理器(DSP)是光模块中进行高速信号恢复和非线性补偿的核心芯片,其性能直接决定了光模块的传输距离和功耗。当前,高端DSP赛道呈现极度集中的寡头垄断格局。
供应格局:市场呈现博通(Broadcom)与Marvell(通过收购Inphi)的双寡头垄断格局。博通和Inphi凭借深厚的SerDes IP积累和PAM4编解码算法,几乎垄断了头部云厂商的1.6T DSP供应份额。1.6T主流方案200G DSP博通表现更优,其400G DSP已发布上市,技术优势明显。
趋紧逻辑:代工产能限制。在1.6T时代,DSP芯片的制程工艺已推进至5nm甚至3nm,技术壁垒极高。无论是博通还是Marvell,其先进制程DSP均高度依赖台积电(TSMC)的先进封装产能。目前台积电的先进制程产能被全球AI芯片(GPU/ASIC)挤压,DSP厂拿到的晶圆配额极为有限,DSP芯片的流片和交付周期被大幅拉长,直接卡住高速光模块放量节奏。
【EML:海外住友主导,国产加速突围】
对于传统分立方案(单波200G),EML(电吸收调制激光器)芯片是发光端的核心器件。1.6T光模块主流的方案为8x200G,这对EML芯片的带宽、啁啾效应和可靠性提出了极高要求。
海外巨头产能保守:日本住友(Sumitomo)等美日企业长期主导全球高端EML领域,掌握着高良率和底层材料Know-how能力。然而传统日系大厂在面对AI激增的需求时,产能扩充策略相对保守,无法完全满足1.6T爆发带来的庞大缺口,高端EML供需出现剪刀差。
国产替代加速:海外供给趋紧的背景下,国内光芯片企业加速突围,如索尔思光电、长光华芯在EML芯片领域具有深厚的IDM(垂直整合制造)能力,正在快速推进高端EML的送样与量产,成为填补缺口的重要力量。
【硅光产能:Design百花齐放,FAB资源重要性凸显】
1.6T率时代,硅光(SiPho)方案凭借其高集成度和低成本优势渗透率加速提升。与传统分立器件不同,硅光的产业链高度类似半导体产业,分为设计(Design)和流片(FAB)两端。
Design 端,设计阵营多样化。头部光模块厂商:中际旭创、新易盛自有硅光芯片设计团队实力强劲;第三方设计公司:赛丽科技和羲禾科技(Xphor)是国内领先的硅光芯片设计公司,它们为部分模块厂商提供标准化的硅光裸片或倒装焊芯片。
FAB 端,代工产能争夺:Tower Semiconductor是目前硅光流片的核心代工厂。Tower拥有成熟的硅光工艺平台,凭借其高可靠性和较好的PDK(工艺设计套件)支持,承接大量硅光设计公司订单。能否提前锁定Tower的晶圆代工产能(FAB Capacity),成为影响光模块厂硅光1.6T实际交付能力的重要因素。
【隔离器:高功率光源爆发下的隐形咽喉】
光隔离器(Isolator)主要用于防止反射光对激光器造成损伤和噪声,是高速光模块中不可或缺的无源器件,正成为高速率光模块交付的“隐形瓶颈”。
紧缺原因:高速场景的硬需求增加。1.6T时代高速光模块中高功率光源的普遍应用,使能隔离反射光的隔离器成为必不可少的关键元件,尤其是硅光方案的大规模应用,因硅光波导的反射极强,易导致外置CW光源失锁甚至烧毁,因此必须在光源和硅光引擎之间加入高性能隔离器。
制造壁垒与产能极限:隔离器高度依赖法拉第磁光效应材料,且涉及到极其精密的亚微米级光学组装与镀膜工艺,上游稀土原材料及特种光学材料的供应链高度集中,且扩产周期较长,成为高速光模块产能扩张的卡脖子环节。
1.6T光模块进入规模化放量元年,上游核心元器件供应整体趋紧。DSP领域寡头垄断,受AI芯片产能挤兑交付周期大幅拉长;EML方面,日本住友等主导高端市场但扩产保守,国内厂商加速突围填补缺口;硅光方案渗透率提升,Design端光模块龙头自研及第三方设计百花齐放,FAB端Tower晶圆产能成为交付关键;隔离器作为隐形咽喉,进一步制约高速模块产能释放。头部光模块厂商凭借硅光自研和供应链控制能力,在1.6T放量周期持续扩大优势。
我们继续看好光+液冷+太空算力,这三个方向按产业发展阶段,其所对应的风险偏好依次提升。继续推荐算力产业链相关企业如光模块行业龙头中际旭创、新易盛等,同时建议关注光器件“一大五小”天孚通信+仕佳光子/太辰光/长芯博创/德科立/东田微,建议关注国产算力产业链,如其中的液冷环节如英维克、东阳光等。
4.MiniMax 发布全球首个支持全模态模型的订阅计划 Token Plan
据IT之家报道,3月23日,MiniMax 宣布将原有的 Coding Plan 全面升级为支持 MiniMax 全模态模型的 Token Plan,这也是全球首个支持全模态模型的订阅计划。
IT之家从官方介绍获悉,现 Token Plan 与原 Coding Plan 的编程模型用量(模型调用数 / 5 小时)、使用体验保持一致。团队为 Plus / Plus-极速版及以上套餐用户,在编程模型基础上新增 MiniMax 多模态模型的调用支持,并赠予相应使用额度,不占用编程模型用量。在套餐赠额内调用多模态模型,无需额外付费。
Token Plan 支持调用 MiniMax 最新发布的 M2.7 编程模型,多模态调用可包含 Hailuo 视频模型、Speech 语音模型、Music 音乐模型和 Image 图像生成模型等。
基于可调用多模态的 Token Plan,用户可以在 OpenClaw 中安装 MiniMax 多模态工具集 Skill。
对于语音生成、视频创作有批量生产需求,现 Token Plan 无法满足使用的专业开发者和企业用户,可以选择增购开放平台中的「语音资源包」与「视频资源包」。「语音资源包」与「视频资源包」支持 MiniMax 旗舰语音模型 Speech 2.8 及视频模型 Hailuo 2.3/2.3-Fast,使用价格与单独调用模型相比可节省 20%。
5.阿里国际在海外落地首个企业级 AI 智能体 Accio Work,号称 30 分钟即可自主创建网店
据IT之家报道,3月24日,阿里国际宣布正式在海外上线首个企业级 AI 智能体 Accio Work,号称可以“自主帮人做生意”。
据介绍,Accio Work 内置“电商专家”“网店运营”“一件代发货”等多个专业智能体,并面向生意领域定制了大量专用“技能包”,覆盖电商与供应链、营销与内容创作、研究与洞察、金融与财务等多个领域。用户只要给 Accio Work 发送一个创意,它就能自主跑完从市场分析、选品设计、店铺装修、商品发布的全过程,号称仅用 30 分钟即可“手搓”出一家可以直接上线的网店。
除此之外,Accio Work 还会根据指令进一步去各大平台帮用户发帖、投广告、推广店铺,并自主帮海外民众寻找优质的中国供应商、自主谈判,直至最终完成采购。用户亦可直接在 Accio Work 上自主定制智能体、创建专属技能,并让智能体之间组成团队分工协作。
6.“Token”中文名定了:词元
据IT之家报道,央视新闻报道在中国发展高层论坛 2026 年年会上,国家数据局局长刘烈宏表示,Token“词元”不仅是智能时代的价值锚点,更是连接技术供给与商业需求的“结算单位”,为商业模式的落地提供了可量化的可能。
这从官方角度给出了 Token 的中文翻译:“词元”。
据IT之家了解,在人工智能系统中,词元是模型处理信息的最小单元。无论是用户输入的查询请求,还是系统生成的程序代码,均需拆解为词元进行运算处理。因此,词元调用量不仅反映模型的使用活跃度,更是评估人工智能产业实际价值创造能力的重要指标。
刘烈宏透露,截至 2026 年 3 月,我国日均词元调用量已攀升至 140 万亿次以上,这一数字较 2024 年初的 1000 亿次实现千倍跃升;即便与 2025 年底的 100 万亿次相比,短短三个月内增幅亦超过四成。
刘烈宏指出,今年 1 月底以来,有的模型企业创下 20 天收入超越 2025 年全年总收入的业绩纪录。这组数字背后,是一套以 Token 计费为基础的新型商业逻辑正在加速演进。
刘烈宏对此评价称,调用量的急剧攀升反映出我国人工智能产业已迈入高速发展通道。随着应用场景从对话交互向决策执行型智能体纵深演进,中国人工智能产业的竞争力在显著增强,现在备受关注的 Token 出海,就是产业竞争力增强的一个标志。
在数据资源层面,我国高质量数据集建设已取得阶段性成果。截至 2025 年底,全国已建成高质量数据集逾 10 万个,存储规模突破 890PB,体量相当于中国国家图书馆数字资源总量的 310 倍。
7.AI 圈地震:月安装量约 9500 万次的 API 网关 LiteLLM 遭投毒,波及 OpenAI / Anthropic 等用户
据IT之家报道,科技媒体 cyberkendra 发布博文,报告称月均安装量达 9500 万次的 AI 基础设施工具 LiteLLM 遭到供应链投毒。
IT之家注:LiteLLM 是一个开源的 AI API 网关,作为支撑数千家企业 AI 架构的关键工具,支持开发者通过统一的格式调用 OpenAI、Anthropic、Azure 等 100 多家服务商的 API 调用。
该工具于 2026 年 3 月 24 日在 PyPI 官方仓库发布了两个带有后门的版本(1.82.7 和 1.82.8)。这两个恶意版本携带了复杂的“三阶段”攻击负载:首先通过凭据收集器窃取数据,随后利用 Kubernetes 横向移动工具在集群节点间渗透,最后植入伪装成“系统遥测服务”的持久后门。
恶意版本目前已从仓库撤下,最后一个安全版本确认为 1.82.6。
此次投毒在技术手段上表现出极高的隐蔽性。1.82.7 版本将恶意代码隐藏在 proxy_server.py 文件中,只要用户导入该模块,代码就会静默执行。
而 1.82.8 版本则进一步升级了破坏力,攻击者利用了 Python 的.pth 配置文件特性。由于 Python 解释器在启动时会自动处理此类文件,这意味着恶意软件会在任何 Python 调用时触发,用户无需手动导入任何模块或进行交互,环境即会被完全感染。
黑客为了模仿 LiteLLM 的官方服务,通过伪造的域名 models.litellm.cloud 进行数据回传,而该域名极具误导性。
被窃取的数据范围极广,涵盖了 SSH 密钥、AWS 和 GCP 云凭据、Kubernetes 机密、加密货币钱包以及 CI / CD 令牌等。
LiteLLM 本身就是一个 API 密钥管理网关,黑客精准打击了这一掌握各类资源“钥匙”的核心节点。此外为规避流量检测,所有外传数据在发送前都经过了 AES-256-CBC 和 RSA-4096 的高强度加密。
安全公司 Endor Labs 调查发现,此次攻击由黑客组织 TeamPCP 发起。该组织本月早些时候曾入侵过 Aqua Security 的 Trivy 扫描器。
由于 LiteLLM 在自身的 CI / CD 流水线中使用了已被入侵的 Trivy 工具,导致 TeamPCP 获取了 LiteLLM 的发布权限,从而成功推送了带毒版本。
受影响的用户应立即采取行动以挽回损失。首先,请运行命令 pip show litellm | grep Version 确认当前版本,并检查 site-packages 目录下是否存在 litellm_init.pth 文件。
如果确认安装过恶意版本,必须立即强制更换所有云端密钥、SSH 私钥、数据库密码及 Kubernetes 令牌。同时,建议用户将 LiteLLM 降级至 1.82.6 版本,并安全审计过去 48 小时内运行过的所有 CI / CD 流水线,确保没有残留的持久化后门。
8.超4万客户使用移动云算力服务“养龙虾"
据C114网报道,3月26日,中国移动公布2025年度业绩。报告期内,中国移动营运收入达到10,502亿元,同比增长0.9%;股东应占利润为人民币1,371亿元,同比下降0.9%,同口径同比增长2.0%。
在晚间举行的业绩说明会上,中国移动方面表示,算力服务包括数据中心、云算服务和云算应用三类,目前三项业务都表现出很好的增长潜力。为了提高算力服务领域的市场地位,公司将采取更加积极进取的策略,加大资源投入和组织整合力度,大力推进“三强一新”,“三强”就是强能力、强品牌、强组织,“一新”就是模式创新。
强能力方面,公司将加快AIDC、算力、Token能力提升。一是加大AIDC枢纽节点投入,打造更多GW级算力园区,今年4月中国移动香港火炭数据中心将投入运营;二是加速算力供给,建设超大规模智算集群,升级算网大脑,支撑内外部算力资源一体化高效调度;三是加强Token运营,推动移动云集成优质模型打造可信推理服务,打通“Agent使用Token、Token拉动算力”的服务链路,快速打开Token市场。
强品牌方面,持续做大算力服务品牌“移动云”,今年5月将召开“移动云大会”,诚邀业界各方相聚盛会、共商发展。截至目前,中国移动自有线下渠道已为数万客户安装“养龙虾”应用,使用移动云算力服务“养龙虾”的客户超4万。
强组织方面,中国移动正在打造一个高效协同、专业化运营的算力运营服务体系,集团总部层面设立算力办公室,省市公司组建算力中心,发挥移动云公司等研发力量,形成体系化的算力服务能力。
模式创新方面,公司把握AI发展趋势和市场需求,不断创新算力的业务模式、商业模式、服务模式,提供DC、算力、Token等服务,满足客户多元化的需求。
中国移动方面表示,期待通过深化落实“三强一新”,跑出中国移动算力服务“加速度”。
9.欧盟 AI 法案关键条款推迟实施,同时支持封禁脱衣换脸类应用
据IT之家报道,3月26日,欧洲议员投票决定推迟欧盟人工智能法案(欧盟监管人工智能的核心法案)的关键条款实施时间,同时支持相关提案,禁止脱衣换脸类应用。
欧洲议会以压倒性多数通过上述措施,将高风险人工智能系统开发者的合规截止日期推迟至 2027 年 12 月,高风险人工智能系统指那些被认定会对健康、安全或基本权利构成“严重威胁”的系统。受玩具、医疗器械等特定行业安全法规约束的人工智能系统开发商,合规期限将更宽松,拟延至 2028 年 8 月。要求服务商为人工智能生成内容添加水印的相关规定,也将推迟至 2026 年 11 月实施。上述所有措施原定于今年 8 月正式生效。
IT之家注意到,议员们还支持在修订后的人工智能法案中加入禁止脱衣换脸类应用的条款。目前该禁令尚无具体细则,不过规定“配备有效安全防护措施、可阻止用户生成此类图像的人工智能系统,将不受该禁令约束”。此前,社交平台 X 上曾出现大量由 Grok 生成的色情深度伪造内容,在欧盟范围内引发广泛愤慨,此次表决正是在此背景下作出的。
此次投票让在欧洲开展业务的企业面临更长时间的政策不确定性。此前欧盟已多次错过发布关键指导文件的截止日期,并对法案部分内容作出调整,导致企业合规进程一再延后。目前尚不清楚上述拟议修改能否在原定的 8 月截止日期前落地,因为欧洲议会无权单方面修改欧盟法律。议会接下来需与由欧盟 27 个成员国部长组成的欧洲理事会就法案最终文本展开磋商。
10.谷歌 TurboQuant 引爆存储芯片崩盘:AI 内存占用锐降至 1/6、推理狂飙 8 倍
据IT之家报道,谷歌研究院发布博文,推出全新极端压缩算法 TurboQuant,有望重塑 AI 运行效率并解决大模型键值缓存(KV Cache)的内存瓶颈。
向量是 AI 模型理解和处理信息的基础,但高维向量会消耗海量内存,从而在键值缓存(KV Cache)中引发严重的性能瓶颈。
IT之家注:键值缓存是大语言模型生成文本时使用的一种高速缓存机制,通过存储历史计算结果来避免重复计算,但极易造成内存瓶颈。
传统的高维向量量化技术虽然能压缩数据,却常常因为需要为微小数据块计算和存储量化常数,引入了额外的“内存开销”。这种额外负担部分抵消了压缩原本带来的优势,导致 AI 大模型在处理长文本或大规模搜索时依然受限。
谷歌研究院为彻底解决这一难题,推出了全新压缩算法 TurboQuant。同时,研究团队还公布了支撑该算法的两项核心底层技术:量化 Johnson-Lindenstrauss(QJL)和 PolarQuant(将亮相 AISTATS 2026)。
这三项技术协同工作,为高度依赖数据压缩的 AI 与搜索业务带来了全新解法,能够在完全不牺牲 AI 模型预测性能的前提下,大幅削减键值缓存的内存占用。
在运行机制方面,TurboQuant 分为两个关键步骤。首先,它利用 PolarQuant 方法进行高质量的主体压缩。该方法打破常规,放弃了传统的笛卡尔坐标系,转而将数据向量转换为极坐标。
这种转换将数据映射到边界已知的固定“圆形”网格上,免去了昂贵的数据归一化步骤,彻底消除了传统方法的内存开销。
随后,TurboQuant 利用 QJL 算法处理第一步遗留的微小误差。QJL 仅需 1 比特的残差压缩算力,就能像数学纠错机一样消除偏差,确保模型计算出精准的注意力分数。
研究团队在 Gemma 和 Mistral 等开源大模型上进行了严格的基准测试。实验数据表明,TurboQuant 无需任何预训练或微调,就能极其高效地将键值缓存压缩至 3 比特,并在“大海捞针”等长上下文测试中实现零精度损失,同时将内存占用降低至 1/6。
此外,在 H100 GPU 加速器上,4 比特 TurboQuant 的运行速度比未量化的 32 比特基准提升了高达 8 倍。
11.换 AI 不再“从零开始”:谷歌 Gemini 现支持一键导入 ChatGPT、Claude 记忆与聊天记录
据IT之家报道,3月27日,谷歌宣布为 Gemini 增加一项新的“记忆导入”功能,旨在让用户更便捷地从其他 AI 服务切换至 Gemini AI。
“我们相信,最实用的 AI 助手应当是能够个性化定制、了解你个人偏好和过往对话的。但如果你想尝试一个不同的选择,面对一个完全不认识你的助手重新开始,可能会让人望而却步。
这就是为什么我们为所有消费者账户推出了全新、易用的切换工具 —— 让你能够将其他 AI 应用中的记忆、上下文和聊天历史直接带入 Gemini。”
借助该功能,用户可将自己的喜好、人际关系以及背景信息直接导入 Gemini。后续,Gemini 便能理解用户此前在其他应用中分享的重要信息,例如兴趣爱好、家人的名字或故乡所在地。用户无需从零开始,即可让 Gemini 快速掌握对自己最重要的信息。
将记忆从其他 AI 应用导入 Gemini 的操作方式如下:进入设置页面,选择新增的导入选项。系统会提供一个建议的提示词,用户可以将其复制并粘贴到当前使用的 AI 应用中。待原应用生成一份关于用户偏好的摘要后,只需将该回复复制并粘贴回 Gemini。Gemini 便会即时分析这些信息,并将细节安全保存至用户的 Gemini 上下文中,供后续聊天时直接使用。
谷歌表示,Gemini 的“个人智能”功能通过整合来自 Gmail、相册、搜索历史以及过往 Gemini 聊天中的相关信息(IT之家注:在用户已授权的情况下),提供了更高层次的实用性。为此,谷歌还引入了导入完整聊天历史的功能。为了体现这一变化,谷歌还将原有的“过往聊天”功能更名为“记忆”,这一调整将在未来几周内在应用中逐步上线。
基于此,用户只需上传从其他 AI 处导出的聊天历史 ZIP 文件,便可无缝衔接之前的对话。用户可以在 Gemini 中搜索过往的对话主题,并在此基础上继续交流。
12.风险提示
AI发展不及预期,算力需求不及预期,市场竞争风险。
下一篇:铜陵经开区开展女职工普法宣传活动