近日,百度正式开源了其最新的视觉理解大模型Qianfan-VL。这一举动不仅标志着百度在多模态技术领域迎来了新的里程碑,更因其背后完全由国产自研的昆仑芯P800芯片提供算力支撑,而显得尤为引人注目。这不仅是一次单纯的技术开放,更是一次对国产AI全栈能力充满信心的展示。
新发布的Qianfan-VL系列模型阵容强大,共推出了3B、8B和70B三个版本,参数量覆盖从小到大的范围,能够灵活适应从边缘计算到云端推理的各类应用场景。该系列模型被定义为多模态大模型,核心本领在于能够同时理解图像与文本两种信息模态。例如,用户可以向它展示一张复杂的图表,它便能深入分析其中的数据和潜在趋势。
在核心能力方面,Qianfan-VL在光学字符识别和教育场景的优化上表现得尤为突出。用户只需随手拍摄一张身份证,模型就能自动识别出姓名和证件号码,轻松实现全场景的文字识别。无论是印刷字体、手写文字,还是过去常常让AI头疼的复杂数学公式,它都能精准捕获并提取信息,转化为结构化的数据。
而在教育领域,Qianfan-VL的定位堪称一位超级学霸,能够辅助学生拍照解题,甚至进行深入的几何推理和函数分析。根据官方公布的测试结果,参数量最大的70B版本在权威科学问答测试ScienceQA中获得了98.76的卓越高分,表现远超同类竞争对手。与此同时,在针对中文环境的多模态基准测试CCBench中,该版本也以80.98的高分脱颖而出,证明了其在中文语境下强大的理解与生成能力。
为Qianfan-VL的成功训练提供强大动力的昆仑芯P800芯片,同样是这次发布的一大亮点。这款芯片具备极佳的功耗控制,150W至160W的功耗使其在大规模计算集群中拥有显著的能耗与散热优势。P800独特的架构设计将计算单元与通信单元分开,有效优化了芯片的整体利用效率。通过先进的通算融合技术,数据传输过程与计算过程得以无缝衔接,极大地提升了模型训练的性能。
据了解,Qianfan-VL的底层架构融合了业界多个优秀的技术成果,并采用了百度独创的四阶段训练管线方法。这种创新的训练模式确保了模型在训练过程中能够打下扎实的通识基础,并在此之上高效学习专业知识,最终达到通用性与专业性的高度统一。
目前,Qianfan-VL全系列模型已经托管在GitHub和Hugging Face等主流开源平台,向全球的企业和开发者开放。同时,百度的千帆平台也提供了在线体验与一键部署服务,进一步降低了前沿AI技术落地应用的门槛。百度此次的全面开源,无疑为全球AI社区注入了新的活力,也让业界看到了国产算力支撑顶尖模型发展的无限可能。