360开源视觉语言对齐模型细粒度图文对齐实现突破_热点

360开源视觉语言对齐模型细粒度图文对齐实现突破

创始人

2025-11-21 05:51:49

（来源：法治日报）

转自：法治日报

近日，三六零安全科技股份有限公司（以下简称360）开源的视觉语言对齐模型FG-CLIP2，在涵盖长短文本图文检索、目标检测等在内的29项公开基准测试中全面领先，在细粒度图文对齐方面取得突破性进展。　　传统的CLIP模型善于理解图像的全局概念，但在区分细微的物体属性、复杂的空间关系以及精准的语言表达时，往往力不从心。FG-CLIP2不仅能够辨别出猫的具体品种，还能在遮挡情况下精准判断其状态。针对包含多个物体的复杂场景，其细节识别置信度高达96%，有效解决了CLIP模型长期存在的细粒度识别难题。　　FG-CLIP2在模型核心方面实现三大创新。一是层次化对齐架构让模型能像人眼一样，同时把握宏观场景与微观细节，实现从“看得见”向“看得清”转变。二是动态注意力机制使模型能够智能聚焦图像关键区域，以最小算力代价换取精准的细节捕捉能力。三是双语协同优化策略从底层解决了中英文理解不平衡的难题，实现真正的双语原生支持。　　FG-CLIP2的卓越性能离不开超大规模高质量数据集FineHARD的底层支撑。该数据集由360自行研发，不仅包括详尽的全局描述和千万级的局部区域标注，还创新性地引入由大模型生成的难负样本，极大地提高了模型的辨别能力。　　在训练方法上，FG-CLIP2采用两阶段策略，并在关键的第二阶段摒弃CLIP模型的“整体对整体”粗放对齐模式，升级为“局部对局部”的精细对齐模式，将其领先能力通过应用程序编程接口等形式开放，为千行百业的智能化升级赋能添力。　　FG-CLIP2的价值不仅在于实验室指标的领先，更在于广泛而深远的行业应用潜力，推动AI从“感知”向“认知”、从“可用”向“好用”转变。在电商领域，它能够精准理解“白色蕾丝边、袖口有珍珠装饰的连衣裙”等复杂描述，实现“所想即所得”的精准搜索，通过革新商品检索与推荐体验，减少退货率。在具身智能领域，它是机器人的“慧眼”，能够精准执行“拿餐桌上的红色水杯”“把玩具放进绿色收纳箱”等指令，通过精准识别物体属性与空间关系，让机器人在家庭、仓储等复杂场景中的操作成为可能。　　此外，FG-CLIP2还可应用于人工智能生成内容、内容审核等多个关键场景，通过洞察细节，确保生成内容的精准性、审核的可靠性及安防检索的高效性。张晶

上一篇：景顺长城景骊成长混合C净值下跌1.23%

下一篇：西部利得景瑞混合A净值下跌1.31%

360开源视觉语言对齐模型细粒度图文对齐实现突破

相关内容

热门资讯

360开源视觉语言对齐模型 细粒度图文对齐实现突破

相关内容

热门资讯

360开源视觉语言对齐模型细粒度图文对齐实现突破