当前端侧多模态大模型普遍面临性能不足、能力有限、适配性差等问题,难以满足端侧对高性能、强隐私、低延迟的需求,成为制约下一代 AI 手机发展的关键。
为此,OPPO AI 中心推出开源的全链路适配的端侧多模态大模型 AndesVL。该模型兼具 SOTA 水平的通用多模态理解推理能力与端侧专项优势,含 0.6B-4B 四档尺寸套件,支持多场景灵活部署,还具备强 GUI 与多语言能力,更将全面开源。其通过先进技术实现端侧效果与效率均衡,为端侧多模态大模型应用树标杆,助力 AI 手机等场景创新。AndesVL具有通用能力强、端侧能力专、适用范围广、端侧部署好、端测试配快等诸多优势。AndesVL浮点数模型在多个领域共30余个benchmark上取得相近尺寸模型的SOTA效果,端侧部署的模型实现高达6.7倍的峰值解码加速比以及1.8BPW的压缩效率。
技术背景
近年来,多模态大模型已在云端各类场景的应用中取得显著成功,而如何在智能手机等终端设备上充分发挥多模态大模型的能力,是下一代AI手机能否成功的关键。端侧应用亟需多模态大模型具备高性能、强隐私、低延迟的能力,但目前的端侧多模态大模型普遍存在性能不足、能力有限、适配性差的问题。
为此,OPPO AI中心大模型算法团队推出国内首个全链路适配的端侧多模态大模型——AndesVL。该系列模型不仅具备广泛适用的SOTA水平的多模态理解和推理能力,还实现了端侧化部署与业务场景应用的无缝对接,能够快速部署、加速推理并广泛应用于智能AI手机等端侧场景。全系列模型包含0.6B至4B四个阶梯尺寸的套件,支持不同资源环境下的配置与应用。除具备通用多模态识别、理解和推理能力外,AndesVL还具有强大的GUI能力和多语言能力,全面适配多样化、全球化的手机端侧应用。此外,AndesVL将全面开源,为端侧多模态大模型的部署与应用树立标杆,同时促进产业内相关技术和应用的全面快速发展。
具体而言,AndesVL主要有以下几个亮点:
模型架构
AndesVL是面向实际端侧部署开发的大模型,因此从架构设计起,就综合考虑模型能力和端侧资源、功耗限制的均衡。为适应不同资源限制下的端侧化运行场景,AndesVL 系列模型在统一的架构模式下具备参数范围从0.6B到4B的4个不同尺寸模型,每个模型具有Instruct和thinking两个版本。统一的架构有利于模型的快速开发迭代和部署应用,不同的模型尺寸适应不同的需求和资源限制场景,而通用指令版和推理版能分别应对通用指令执行和强推理的不同应用场景需求。
具体而言,模型结构包括三部分:视觉编码器(ViT)、多层感知器(MLP)和大语言模型(LLM)。视觉编码器的选型上,1-4B版本的采用AimV2-300M,相比更大、更复杂的编码器(如 Qwen2VL-ViT),其尺寸和架构设计在功耗和部署适配性上都更适合端侧使用;应对0.6B模型部署资源限制更为严格的要求,则采用更小尺寸的SigLIP-2-base 作为视觉编码器,在保证效果的同时尽可能减少资源消耗。在基础的视觉编码器上,AndesVL 加入了二维旋转位置嵌入(2D-RoPE),借助其外推能力,使模型能有效处理高低不同分辨率图像的输入。此外,视觉编码器基于Native Resolution ViT(NaViT) 策略直接处理任意分辨率的输入,能高效处理任意宽高比和分辨率的图像,同时采用像素重排 (pixel shuffle) 无损压缩序列长度,提高处理性能。 在大语言模型部分,AndesVL采用成熟的Qwen3系列语言模型,以支持Instruct和Thinking两种模式的模型实现。
训练方案
1、预训练阶段
AndesVL 的预训练阶段包含三个步骤:视觉-语言对齐、视觉-语言联合预训练和多任务预训练:
该阶段训练除进行视觉模态到语言模态的对齐外,重点训练以充分发挥新引入的二维旋转位置嵌入的潜能。训练第一阶段使用大量低分辨率数据(最高 896×896 像素)进行预训练;第二阶段则在此基础上继续使用更高分辨率数据(最高1792×1792 像素)进行微调。为保持语言模型稳定性,该阶段主要使用的数据为图像描述(Captions)、光学字符识别(OCR)数据和视觉问答(VQA)等较为通用的视觉语言对齐数据。
视觉-语言联合预训练阶段解冻 LLM 的参数,并以相对较低的学习率进行全参数预训练,同时此阶段将 LLM 的上下文窗口从 2,048 扩展到 8,192。
这一阶段的训练数据主要由图文交错的数据组成,这将传统的纯文本预训练扩展为包含图像输入的形式。为了保留模型的纯文本处理能力,提升指令理解能力和基本的视觉理解能力,他们在训练中也混入了一部分纯文本数据、一定数量的VQA数据和第一阶段中用于视觉-语言对齐的数据。为防止单向自回归的 Transformer 中图像出现在序列末尾时导致无法有效学习的问题,训练时采取随机位置替换的方式,即以 50% 的概率随机将图像从原始位置提前至文本内容之前,并用对应的索引代替原图像位置。
相比于Instruct版的训练,Thinking版模型从此阶段起就开始引入大量长推理数据,包括图文混合的长推理数据和纯文本的长推理数据,在保持原LLM的数学推理能力的同时,激活多模态模型的长推理能力。
在此阶段,AndesVL使用标注数据的有监督学习,并专注于对答案部分的文本token计算损失。这一阶段的主要数据类型包括通用的视觉问答(VQA)、图像描述(Captions)、光学字符识别(OCR)数据和图文长推理数据,同时也引入了特定任务的数据,例如定位(Grounding)和用户界面(GUI)相关数据。同样的,这个阶段的Thinking模型也引入了大量的长推理数据。为了更好地学习高分辨率数据中的信息,在此阶段将 ViT 的图像块输入长度从4,096 增加到了 16,384。同时LLM的序列长度也从8,192扩展到32,768。
2、后训练阶段
AndesVL的后训练主要应用的技术包括:监督微调 (SFT)和强化学习对齐(RL)。其中RL阶段对Instruct模型和Thinking模型分别使用混合偏好优化 (MPO)和GRPO。因此后训练数据包含三部分,通用的微调数据、MPO数据和GRPO数据。
监督微调的通用数据集经过精心设计,能够将多种输入模态引入模型,从而增强强大的表征学习能力。该数据集涵盖了多种任务目标,例如图像描述、图像问答、文本摘要、代码生成等。
监督微调数据经过多阶段的数据过滤流程,包括单模态过滤、任务聚类及基于LLM的评分机制,最终构建了一个包含约1600万条数据的高质量微调数据集。
直接偏好优化(DPO)已成为将大语言模型(LLM)与人类偏好对齐的主流方法,由于其在语言模型对齐中的良好表现,近期一些研究已将 DPO 应用于多模态场景中。然而,在多模态大语言模型中应用 DPO 仍面临两大挑战:一是缺乏全面且高质量的多模态推理偏好数据集,二是 DPO 本身无法评估单个回答的绝对质量。为应对这些问题,InternVL团队提出了一种新的方法——混合偏好优化(MPO),该方法已在多个多模态推理评估任务中展现出更优的性能表现。
AndesVL采用了MPO的训练方法,并针对性设计了数据构造pipeline,由此生成了大量MPO训练数据,结合开源数据MMPR,显著提升了模型的整体能力。
根据DeepSeek的实验结论,小模型可以从大模型中继承思维链的推理能力,因此AndesVL采用了数据蒸馏的方式,通过设计数据构造的pipeline来大批量获取高质量的多模态长思维链数据。
借鉴Qwen3思考模式切换的设计思路,AndesVL采用了两类数据集:一种包含详细推理步骤的“有思考过程”数据集,另一种省略推理过程的“无思考过程”数据集。这种策略使得模型可以在思考和不思考之间灵活切换。
GRPO阶段我们采用多模态推理数据和纯文本推理数据的两阶段训练方案,同时根据数据难度从易到难做课程学习充分激发模型的推理能力,使其在数学推理等领域的效果大幅提升,同时保持非推理领域的效果。
端侧部署解决方案:算法优化与高效部署的创新实践
为应对端侧AI规模化落地的挑战,OPPO基于自研的AndesVL多模态模型,构建了一套从底层算法优化到上层部署架构的完整技术方案。该方案聚焦于算法优化与端侧部署两大方向,通过在模型压缩与架构设计上的协同创新,实现了推理效率、部署灵活性与迭代经济性的显著提升。
1、算法优化:稀疏化+QAT,奠定高效部署基石
在算法层面,我们通过前沿的稀疏化压缩与量化感知训练技术,从源头削减模型的计算与存储开销,同时结合先进编解码算法,为端侧高效推理奠定坚实基础。
模型稀疏化压缩:突破75%稀疏度,BPW低至1.8+bit
我们实现了大语言模型稀疏化技术的关键突破。OPPO与联发科联合优化模型端侧内存压缩技术,通过算法与硬件的协同设计,在极小的效果损失前提下,将模型权重稀疏度提升至75%以上,平均每参数比特数(BPW)成功降至1.8bit以下,结合联发科天玑9500芯片的硬件内存压缩技术,OPPO实现模型端侧内存占用降低30.9%,推理速度提升45%。成功在压缩率、推理速度与精度保持之间达成了高效平衡。
量化感知训练(QAT):构建从训练到部署的可预测通路
我们构建了覆盖基模型与场景LoRA的双重量化感知训练体系,确保量化模型在端侧的效果可靠性与迭代效率。
QALFT框架的核心思想是模型、数据、训练器三方解耦,各组件可在不同训练流程中复用。同时,Runtime库与上层设施隔离,保证训练流程可以在不同平台快速迁移。通过使用QALFT训练套件,我们可以快速在MTK硬件平台上进行模型训练和部署。
编码压缩与解码加速:突破长上下文与自回归生成瓶颈
为克服长文本输入与自回归生成带来的端侧推理延迟,我们针对LLM的推理流程进行了深度优化。
2、端侧部署:1+N LoRA架构实现低成本、高灵活的规模化扩展
在部署架构层面,我们创新性地采用了 “1+N LoRA” 策略,以一个强大的多模态基模型结合多个轻量级、可插拔的场景专用LoRA模块,有效应对端侧设备资源受限与场景多样化的双重挑战。
该架构允许在运行时动态加载不同的LoRA来执行相应任务,不仅显著降低了新增功能所需的存储空间与更新成本,更使得OPPO能够基于同一基模型,快速发布并迭代多款运行于AI设备上的端侧应用,实现了高效、经济的规模化部署与敏捷迭代。
评测结果
1、整体能力
上表展示了不同多模态大模型 (MLLM) 在学术基准测试中的详细评估结果。4B-Thinking 模型70.9 分,比第二名InternVL3.5-4B 高出 3.2 分。在6大垂直领域,AndesVL-4B均取得第一的分数,显示出其在各种多模态场景下的卓越性能。4B-instruct 在多个垂直领域同样表现出色,尤其是在多图像理解和多语言任务。AndesVL-2B-Thinking总分64.4,在同规模模型中排名第一,其在多图像理解和幻觉缓解方面性能突出。1B和0.6B模型优势明显,thinking和instruct模型分别位列同尺寸前两名。特别是0.6B模型,相比InternVL3.5-1B等各大尺寸的模型,也具有一定优势。
这些结果凸显了AndesVL系列模型在处理一系列需要多模态感知、理解和推理的现实世界任务方面的出色能力。同时,0.6B-4B的多样性的尺寸范围结合其强大的多模态能力,AndesVL十分适合应用于各类场景,特别是计算资源紧缺的手机移动场景。
2、垂域能力
AndesVL-4B-Thinking在各类数学与推理基准测试中以58.3的综合得分位居榜首,特别是在MathVista、MathVerse和WeMath基准测试中较先进模型展现出显著优势。AndesVL-2B-Thinking模型以45.7的综合得分位列第二,与最高分49.9十分接近。此外,AndesVL的1B和0.6B模型在各自规模组别中仅在综合得分上最高,而且在大多数单项基准测试中也是第一。
这些结果印证了训练策略的有效性:在预训练阶段利用大规模、优质的长链思维链多模态数据激活推理能力后,在后训练阶段通过强化学习显著增强了模型的视觉-文本联合推理能力。
AndesVL4B-Thinking模型以86.0的综合得分在视觉文本任务中夺得第一,并在八项基准测试中的四项取得最佳成绩。同样,AndesVL-4B-Instruct也取得84.8的优异表现。特别在ChartQA上,AndesVL-4B-Thinking模型获得90.4分,以4.4分的优势显著超越此前最佳模型InternVL3.5-4B(86.0)。在DocVQA基准测试中同样观察到类似的显著优势。由于ChartQA和DocVQA都是以长文本图像和复杂问题构成,这个结果说明了AndesVL不仅能够准确识别长文本,更能运用高级推理能力有效解决具有挑战性的多模态问题。
对于更小尺寸的模型,AndesVL-2B-Instruct、AndesVL-1B-Thinking和AndesVL-0.6B-Instruct模型均在各自规模组别中夺得第一,展现出全系列模型的优秀视觉文本理解能力。
AndesVL-4B 在多项多图像基准中表现优异,获得67.8 的最高分。更小尺寸的模型依旧继承了4B模型的优势,0.6B模型得分53.1,相比1B模型无明显精度下降。这一优势表明,AndesVL 采用的先进预训练策略和增强的训练数据集,通过同时理解和分析多幅图像之间的关系,显著提升了其捕捉和推理图像间关系的能力。
AndesVL 模型(4B、1B 和 0.6B)在各自尺寸中取得了最佳精度,2B 版本也获得极具竞争力的成绩。详细分析显示, AndesVL 在 MME 和 RealWorldQA 上展现出优异性能。这表明我们的模型能够提取鲁棒图像特征,并展现出强大的真实场景理解能力,能够有效地处理复杂且动态的任务。
AndesVL 各尺寸模型均排名第一,4B 和 0.6B 模型分别得分74.8 和 65.9,与其他同尺寸模型相比有显著优势,而且这种优势在更小尺寸模型上更加明显。这表明我们的架构在保持高精度的同时,还提供了优异的幻觉缓解能力,即使在最小的 0.6B 版本中也依旧如此。
AndesVL 的 Thinking 和 Instruct 模型都展现出优异的多语言能力,取得 64.9 的最高分,比之前的最佳模型 Ovis2-4B 高出 1.5 分。这种专业的多语言能力可以使模型的多模态能力能够迁移到多个语种,从而将应用扩展到更广泛、更多样化的全球受众。
AndesVL 模型在ScreenSpot和我们自建的 AndesUI 评测集上均取得了领先精度。这些结果共同证明了AndesVL在 UI 理解和应用方面的丰富经验和独特的竞争优势。
3、on-device效果和性能评测
我们在多个公开评测集进行端侧精度和推理速度的评测,展示OPPO在端侧模型精度优化和推理加速方面的成果。
Top1-accuracy体现了模型在量化前后解码行为的一致性。我们在端侧验证了经过量化感知训练(QAT)前后的Ansdes-VL-4B进行PTQ(W4A16)之后的精度,实验结果显示OPPO自研的QAT训练框架可以显著降低模型在端侧的量化损失。
我们成功将自研的OKV端侧编码压缩方案应用在OPPO亮点功能-通话摘要上,可以看到在50%压缩率的实验条件下,相比SnapKV这一经典方案,模型在rouge-1指标上提升超过10%。在25%压缩率下甚至媲美全量KV缓存效果。
结合自研的投机解码算法、模型稀疏化及联发科天玑9500芯片的硬件压缩技术,在AndesVL-4B上,我们实现了比无压缩优化的自回归模型高达6.7倍的峰值解码加速比。通过极致的模型压缩,模型的BPW也大幅下降至1.8。
AndesUI benchmark
为增强 AndesVL 对智能手机 UI 的理解能力,OPPO多模态大模型团队构建了一个专注于 UI 理解的数据集,名为 AndesUI。此数据集共收集了 90 款应用,其中包括来自 OPPO 软件商店的 65 款热门下载应用,覆盖用户高频使用的多个类别,以及 25 款 ColorOS 预装应用。标注人员被要求截取每款应用中不同且具有异构特性的页面截图,确保每张截图包含独特的布局和内容。最终共收集了来自第三方应用的 10000 张截图和来自 ColorOS 预装应用的 2500 张截图。
得到以上图片数据后人工对每张截图中的所有控件进行标注,包括绘制边界框、识别控件类型、记录控件上可获取的文字内容、判断其是否可点击等信息。平均每张界面截图生成约 18 个控件,训练集中共计包含 227000 个控件。
最终构建了基础与进阶两类数据。基础数据包括定位与指代表达数据集,进阶数据则涵盖整体描述性数据和自然语言问答对。最终训练集共生成 227000 条指代表达数据、186000 条定位数据、13000 条综合描述数据以及 108000 条自然语言问答对。
数据示例如下:
模型输出示例
下面展示了AndesVL-4B模型在各个场景的输出示例:
未来展望
OPPO多模态大模型团队提出的Andes-VL从模型架构、训练方法、端侧部署、模型应用等多个方面提出了针对端侧多模态大模型训练部署应用的综合解决方案。当前该模型在综合效果、数学推理、GUI理解、多语言都达到了同量级模型的领先水平,并开源相关模型推动行业技术进步。
未来该团队将会在视觉编码器解决方案、后训练方案、知识蒸馏机制、融合文本视觉语音三模态的一体化模型等方向继续发力,相信OPPO将不断在手机端侧实践和应用这些技术,给用户提供更安全、更快捷、更智能的交互体验,也将推动整个行业向更高层次的技术革新迈进。