(来源:法治日报)
转自:法治日报
近日,三六零安全科技股份有限公司(以下简称360)开源的视觉语言对齐模型FG-CLIP2,在涵盖长短文本图文检索、目标检测等在内的29项公开基准测试中全面领先,在细粒度图文对齐方面取得突破性进展。 传统的CLIP模型善于理解图像的全局概念,但在区分细微的物体属性、复杂的空间关系以及精准的语言表达时,往往力不从心。FG-CLIP2不仅能够辨别出猫的具体品种,还能在遮挡情况下精准判断其状态。针对包含多个物体的复杂场景,其细节识别置信度高达96%,有效解决了CLIP模型长期存在的细粒度识别难题。 FG-CLIP2在模型核心方面实现三大创新。一是层次化对齐架构让模型能像人眼一样,同时把握宏观场景与微观细节,实现从“看得见”向“看得清”转变。二是动态注意力机制使模型能够智能聚焦图像关键区域,以最小算力代价换取精准的细节捕捉能力。三是双语协同优化策略从底层解决了中英文理解不平衡的难题,实现真正的双语原生支持。 FG-CLIP2的卓越性能离不开超大规模高质量数据集FineHARD的底层支撑。该数据集由360自行研发,不仅包括详尽的全局描述和千万级的局部区域标注,还创新性地引入由大模型生成的难负样本,极大地提高了模型的辨别能力。 在训练方法上,FG-CLIP2采用两阶段策略,并在关键的第二阶段摒弃CLIP模型的“整体对整体”粗放对齐模式,升级为“局部对局部”的精细对齐模式,将其领先能力通过应用程序编程接口等形式开放,为千行百业的智能化升级赋能添力。 FG-CLIP2的价值不仅在于实验室指标的领先,更在于广泛而深远的行业应用潜力,推动AI从“感知”向“认知”、从“可用”向“好用”转变。在电商领域,它能够精准理解“白色蕾丝边、袖口有珍珠装饰的连衣裙”等复杂描述,实现“所想即所得”的精准搜索,通过革新商品检索与推荐体验,减少退货率。在具身智能领域,它是机器人的“慧眼”,能够精准执行“拿餐桌上的红色水杯”“把玩具放进绿色收纳箱”等指令,通过精准识别物体属性与空间关系,让机器人在家庭、仓储等复杂场景中的操作成为可能。 此外,FG-CLIP2还可应用于人工智能生成内容、内容审核等多个关键场景,通过洞察细节,确保生成内容的精准性、审核的可靠性及安防检索的高效性。 张晶