智源研究院发布开源中文互联网语料库CCI 4.0
创始人
2025-05-08 22:44:12

北京商报讯(记者 魏蔚)5月8日,北京商报记者获悉,智源研究院近日在GOSIM全球开源创新论坛上发布大型开源文本数据集CCI 4.0。据了解,CCI 4.0兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0首次采用CoT方法进行推理轨迹数据合成,以提升预训练模型的基础推理能力。CCI 4.0数据集由智源研究院牵头,联合包括阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献。

相关内容

热门资讯

C南网数(301638)新增【... 证券之星消息,根据市场公开信息整理,11月19日C南网数(301638)新增【多模态AI】概念。 新...
原创 面... 在当今国际政治的舞台上,日本似乎总是扮演着一个谨小慎微却又处于风口浪尖的角色。近日,关于日本外相茂木...
最新或2023(历届)鼠年春节...   1. 玉宇澄清浮正气;金猴奋起树新风。  2. 玉羊捷足归栏去;大圣腾云降福来。  3. 玉燕迎...
最新或2023(历届)鼠年春节...   1. 上联:新长征伟业 青山不老 下联:共产党恩情 碧水长流  2. 上联:国兴旺 年年风调雨顺...
最新或2023(历届)饭店春节...  过春节,贴春联,这是我们中国人的传统,最新或2023(历届)春节就要到了,下面推荐关于饭店春节的对...