宋双永:星辰大模型安全可信助力AI+发展
创始人
2025-05-16 10:30:32
0

5月10日,由中国企业改革与发展研究会主办,中企研数字经济与数据资产工作委员会、企业观察报社承办的央企AI+大模型应用论坛在北京举办。论坛上,中国电信人工智能科技有限公司研发总监宋双永就《星辰大模型,安全可信助力AI+发展》发表了主题演讲。演讲中提到,中国电信自主开发的星辰语义大模型,坚持全栈打造自主可控,是首个基于国产万卡集群训练并在央企中率先全面开源的模型,通过网信办算法与产品双备案。

安全是人工智能发展的战略基石。人工智能等新技术带来了前所未有发展机遇的同时,也带来了前所未遇风险挑战。因此国家重点关注人工智能安全并提出更高要求。4月25日,习近平总书记在中共中央政治局第二十次集体学习时强调,面对新一代人工智能技术快速演进的新形势,要充分发挥新型举国体制优势,坚持自立自强,突出应用导向,推动我国人工智能朝着有益、安全、公平方向健康有序发展。

要求中所提到的有益、安全和公平,都与大模型的安全能力非常相关。宋双永说,这里需要强调的是,整个全流程要安全可控,就要求整个大模型的全栈自研。

中国电信大模型安全治理的总体技术框架,包含安全治理措施、大模型全生命周期、应用场景和安全目标几个层面。

宋双永解释道,在安全治理举措大类中,各个厂商的架构都是一致的,包括组织保障、制度建设、人员培养、技术手段等几个方面。在全生命周期层面,如果厂商能够在整个大模型研发全生命周期里控制大模型的安全能力,要求其具有全栈自研的能力,这是一个基本的硬性要求。在应用场景上,不论是自研模型、生态伙伴,还是私有化的部署场景、一些定制化的优化场景,对安全目标就是四点,视频不泄露、平台安全可靠、内容合法合规、模型不滥用。

宋双永介绍了星辰语义大模型全栈自研的基本情况。首先是通过了网信办大模型算法、产品双备案。实现了全尺寸自研训练,面向端侧1B、3B、7B,面向云侧12B、35B、52B、115B,以及更大规模参数模型的探索性训练。同时,全面使用国产化服务器训练、续训、微调和推理,各个阶段全面适配。并且面向社会公众开源,全部开放训练源代码,以及全尺寸模型版本,同时开源高质量1T训练数据。宋双永说,目前这份训练数据已经成为很多基础模型训练或者续训的用户参考使用的一份数据。

全流程最基础就是在数据维度。宋双永强调,大模型训练虽然有模型维度的创新,但真正最大程度地限制或反映支撑模型效果的,是数据的质量和数量。在数据构建阶段把安全能力做好,后面才会保障各个环节的安全。

星辰语义大模型遵循统一数据底座、统一数据加工、统一数据管理的原则,打通“从数据到模型,从模型到应用”的全流程,积累15万亿高质量训练数据,通过科学的数据处理链路、数据配比方案、高质量数据筛选算法,强化模型的文本理解和逻辑推理能力,训练损失更低、学习速度更快。

宋双永进一步解释,数据处理流程中,基础数据处理涉及数据采集、预处理、标注、配比,以及高质量数据筛选等流程,每个流程里都有对安全的控制,像数据预处理阶段,冗余信息的去除、敏感与低质内容过滤和数据毒性评估等,这些都是在做安全维度数据的预处理,还有数据分级分类,敏感分级、安全分级、质量分级等,在不同的场合或者不同的应用场景,对数据的选取要求也会有所不同。中国电信,通过增大中文内容占比,提升模型文本理解、推理、考试能力,优化配比方案,推理、专试、代码等能力单项评测指标平均提升+5.6%。通过增大数学和题库比例,考试和代码评测指标的“提升速率”加快。

在后训练微调数据,按文本生成、逻相推理、安全回复、数学能力等类目收集,经筛选后的高质量数据为100+万条;常态化抽取样例数据进行质量评估,覆盖文本生成、语言理解、知识推理、逻辑推理、数学能力等10个类别,定向优化提升高质量数据占比;面向17项评测任务,筛选高质量SFT数据,微调后各项评测指标相对提升8%-12%。

中国电信,针对大模型的伦理和安全问题,从典型安全场景和指令攻击两个方面对模型进行评估,包含7种常见的伦理与安全评估场景和9种指令攻击方法,目前已经积累多维度安全评估测试集10W+。

关于大模型安全维度的下一步思考,宋双永提到,在AI自我意识诞生之前,提升AI的智能理解水平是AI安全的根本措施。如今AI已逐渐渗透到软件、硬件真实物理世界,将对人类生活产生切实的影响,因此大模型接管物理世界后的世界,值得我们更多的警惕,安全的工作也会变得更加复杂,所以大模型安全是要持续地更加细节地进行下去。

企观国资是企业观察报社官方微信公众号。《企业观察报》是由国务院国资委指导、中国企业改革与发展研究会主管主办的全媒体平台,被国务院国资委认定为“国资国企自有舆论平台”,致力于以专业化、市场化、国际化视角关注报道中国企业改革发展。

互联网新闻信息服务许可证号:10120240005

相关内容

热门资讯

澳股收涨0.56%,8连升 格隆汇5月16日|澳大利亚S&P/ASX200指数收盘上涨46.20点,涨幅0.56%,报8343....
2024年河北省综合算力指数排... 新华财经石家庄5月16日电(记者刘桃熊)近日,河北省通信管理局发布《2024年河北省信息通信业发展报...
贝壳一季度净收入233亿元,非... (转自:地产红榜)  5月15日,贝壳发布2025年第一季度财务业绩。一季度贝壳总交易额(GTV)8...
越秀地产(00123):“22... 越秀地产(00123)发布公告,广州市城市建设开发有限公司2022年面向专业投资者公开发行公司债券(...
今日股市0515丨三大指数全线... 来源:@究竟视频微博 【今日股市0515丨三大指数全线回...
购买带货流量险遭骗 本报讯(通讯员 龚彦菲 记者 鲁哲)“我反复劝我老婆,她都不听,只好求助警察了!”近日,闵行公...
珠免集团涨2.40%,成交额1... 5月16日,珠免集团(维权)盘中上涨2.40%,截至14:25,报6.40元/股,成交1.08亿元,...
【环球财经】阿联酋与美国达成超... 转自:新华社新华财经阿布扎比/华盛顿5月15日电(记者温新年、赵丹亮)据阿联酋通讯社15日报道,阿联...
商务部召开全国离境退税工作推进... 5月15日,全国优化离境退税政策扩大入境消费工作推进会在京召开。会议深入贯彻落实党中央、国务院决策部...
英德宣布开发射程超2000公里... 据环球网援引路透社消息,英国政府当地时间5月15日表示,在英国和德国正加强防务合作之际,两国将联合研...
研报掘金丨东北证券:予长城汽车... 东北证券研报指出,国内硬派越野车的市场仍然有很大的成长空间。长城汽车(2333.HK)稳坐国内硬派越...
她有着高山一样的口碑 胡笛 《草原牧医》入选了2024年中国作协网络文学“乡村振兴主题”重点作品扶持。小说一开始就是...
国际原子能机构总干事:扎波罗热... 转自:央视国际原子能机构总干事格罗西15日表示,自5月7日以来,扎波罗热核电站仅依靠一条输电线路供电...
昆船智能跌2.02%,成交额1... 5月16日,昆船智能盘中下跌2.02%,截至14:12,报18.87元/股,成交1.80亿元,换手率...
安徽省巢湖市槐林市场监管所严查... 中国质量新闻网讯 为切实维护群众饮食安全,规范餐饮行业经营秩序,近日,安徽省巢湖市槐林市场监管所深入...
探访红色地标Vlog|江桥抗战... 转自:北京日报客户端黑龙江省齐齐哈尔市泰来县江桥镇,江桥抗战纪念地。1931年,九一八事变后,中华民...
上叠“阁楼+露台”双赠送!华润... 上海进深 张林霞 华润华发时代之城加推约93-177㎡高层&叠加,已经过会,均价约6.25万/㎡,开...
俄媒:俄乌伊斯坦布尔谈判即将开... 据@CCTV国际时讯 消息,据俄新社援引土耳其外交部消息人士报道称,俄乌伊斯坦布尔谈判将于当地时间今...
年内超20家券商高层人事“洗牌... 界面新闻记者 | 陈靖2025年开年至今,证券行业正经历近年来罕见的高层人事调整。据界面新闻不完全统...
江山股份涨2.04%,成交额1... 5月16日,江山股份盘中上涨2.04%,截至14:29,报17.03元/股,成交1.10亿元,换手率...