智源研究院发布开源中文互联网语料库CCI 4.0
创始人
2025-05-08 22:44:12

北京商报讯(记者 魏蔚)5月8日,北京商报记者获悉,智源研究院近日在GOSIM全球开源创新论坛上发布大型开源文本数据集CCI 4.0。据了解,CCI 4.0兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次采用CoT方法进行推理轨迹数据合成,以提升预训练模型的基础推理能力。CCI 4.0数据集由智源研究院牵头,联合包括阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献。

相关内容

热门资讯

“东北超”沈阳赛区球票13日开... (来源:沈阳晚报)转自:沈阳晚报  5月10日,2026年东北地区城市足球联赛(简称“东北超”)官网...
永远的母爱 (来源:沈阳晚报)转自:沈阳晚报  □蒋玉丹  办公室里,键盘的敲击声,像春雨轻叩窗棂。突然,手机屏...
专项普法深入浅出精准传递 (来源:黑龙江日报)转自:黑龙江日报正值第六个“民法典宣传月”,近日,大兴安岭地区新林区人民法院组织...
创建文化品牌赋能行政审判 (来源:黑龙江日报)转自:黑龙江日报哈尔滨铁路运输中级法院持续推进新时代龙法“文化铸品”十项建设,深...
54名法治副校长下沉中小学授课 (来源:黑龙江日报)转自:黑龙江日报近日,鸡西市两级法院集中开展春季“法治第一课”校园法治宣传活动,...