智源研究院发布开源中文互联网语料库CCI 4.0
创始人
2025-05-08 22:44:12

北京商报讯(记者 魏蔚)5月8日,北京商报记者获悉,智源研究院近日在GOSIM全球开源创新论坛上发布大型开源文本数据集CCI 4.0。据了解,CCI 4.0兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次采用CoT方法进行推理轨迹数据合成,以提升预训练模型的基础推理能力。CCI 4.0数据集由智源研究院牵头,联合包括阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献。

相关内容

热门资讯

全场景硬派新选择:深度解析猛士... (来源:车联新生态)全新猛士M817以"5+2+X"理念重塑硬派SUV标准:东方醒狮造型融合越王勾践...
AI内存需求暴涨 美光与晟碟高... 核心事件:AI正在重塑存储芯片行业供需格局,替代传统周期逻辑,成为存储产能分配的核心导向,行业逻辑转...
以色列对黎巴嫩南部宾特朱拜勒区... 以色列在黎巴嫩南部宾特朱拜勒区法伦镇郊区发动无人机空袭,同时以军已将地面部署范围扩大至宾特朱拜勒区和...
Replimune获摩根大通上... 核心事件:摩根大通将生物科技公司Replimune的股票评级从中性上调至增持,目标价从8美元上调至1...
“微博崩了”,微博致歉 (来源:千龙网)6月28日下午,#微博崩了#引发热议。随后@微博客服 回应:6月28日下午,因某地数...