京东开源JoyAI-LLM-Flash大模型:总参数48B,激活参数3B
创始人
2026-02-15 18:50:29

IT之家 2 月 15 日消息,京东昨天在 Hugging Face 平台开源了 JoyAI-LLM-Flash 大模型,拥有 3B 激活参数以及 48B 总参数,在 20 万亿文本 Token 上进行预训练,擅长前沿知识理解、推理能力、编程、智能体等方面

据介绍,这款模型拥有全新优化框架 FiberPO,能够将纤维丛理论(fiber bundle theory)引入强化学习,并在训练中使用 Muon 优化器,通过微调 SFT、DPO 以及强化学习(RL)进一步训练。

同时,这款模型结合了 Muon 优化器以及稠密 MTP(Multi-Token Prediction),解决了传统模型规模扩展时不稳定的问题,相比非 MTP 版本吞吐量提升 1.3x-1.7x。

IT之家附该模型详细参数如下:

项目参数架构混合专家模型 (MoE)总参数量48B激活参数量3B层数(含 Dense)40

Dense 层数量1注意力隐藏维度2048MoE 隐藏维度768多头注意力数量32专家个数256每 Token 专家数8共享专家数

1词表大小129K上下文长度128K注意力机制MLA激活函数SwiGLU

相关内容

热门资讯

春节假期第一天全国道路交通平稳... 15日是春节假期第一天,也是节前最后一次返乡小高峰,主干公路交通流量环比明显上升。截至18时,除个别...
新春走基层|从“兰花小白”逆袭... 新春时节的福州于山风景名胜公园,古树苍翠,兰香沁人。第二十一届于山春节兰花展即将在正月初一正式开展,...
北京启动“家政+养老”服务协同... 转自:北京青年报客户端新春启序,暖意传情。2月15日,北京市民政局会同西城区启动“家政+养老”服务协...
换季式降温来了!回家路上,千万... 转自:法治日报2月15日是春节假期第一天,我国降水增多增强,江汉、江南等地部分地区降雨时还可能伴有强...
西沙雷达站:在海天之间守护祖国... 转自:法治日报海天之间,一抹晨曦染亮海南省三沙市政府驻地永兴岛。2月7日7时许,《法治日报》记者搭乘...