360开源视觉语言对齐模型 细粒度图文对齐实现突破
创始人
2025-11-21 05:51:49

(来源:法治日报)

转自:法治日报

近日,三六零安全科技股份有限公司(以下简称360)开源的视觉语言对齐模型FG-CLIP2,在涵盖长短文本图文检索、目标检测等在内的29项公开基准测试中全面领先,在细粒度图文对齐方面取得突破性进展。   传统的CLIP模型善于理解图像的全局概念,但在区分细微的物体属性、复杂的空间关系以及精准的语言表达时,往往力不从心。FG-CLIP2不仅能够辨别出猫的具体品种,还能在遮挡情况下精准判断其状态。针对包含多个物体的复杂场景,其细节识别置信度高达96%,有效解决了CLIP模型长期存在的细粒度识别难题。   FG-CLIP2在模型核心方面实现三大创新。一是层次化对齐架构让模型能像人眼一样,同时把握宏观场景与微观细节,实现从“看得见”向“看得清”转变。二是动态注意力机制使模型能够智能聚焦图像关键区域,以最小算力代价换取精准的细节捕捉能力。三是双语协同优化策略从底层解决了中英文理解不平衡的难题,实现真正的双语原生支持。   FG-CLIP2的卓越性能离不开超大规模高质量数据集FineHARD的底层支撑。该数据集由360自行研发,不仅包括详尽的全局描述和千万级的局部区域标注,还创新性地引入由大模型生成的难负样本,极大地提高了模型的辨别能力。   在训练方法上,FG-CLIP2采用两阶段策略,并在关键的第二阶段摒弃CLIP模型的“整体对整体”粗放对齐模式,升级为“局部对局部”的精细对齐模式,将其领先能力通过应用程序编程接口等形式开放,为千行百业的智能化升级赋能添力。   FG-CLIP2的价值不仅在于实验室指标的领先,更在于广泛而深远的行业应用潜力,推动AI从“感知”向“认知”、从“可用”向“好用”转变。在电商领域,它能够精准理解“白色蕾丝边、袖口有珍珠装饰的连衣裙”等复杂描述,实现“所想即所得”的精准搜索,通过革新商品检索与推荐体验,减少退货率。在具身智能领域,它是机器人的“慧眼”,能够精准执行“拿餐桌上的红色水杯”“把玩具放进绿色收纳箱”等指令,通过精准识别物体属性与空间关系,让机器人在家庭、仓储等复杂场景中的操作成为可能。   此外,FG-CLIP2还可应用于人工智能生成内容、内容审核等多个关键场景,通过洞察细节,确保生成内容的精准性、审核的可靠性及安防检索的高效性。 张晶

相关内容

热门资讯

市政府森林草原防火命令签发 (来源:邢台网)转自:邢台网市政府森林草原防火命令签发保护人民生命财产和森林草原生态安全本报讯(记者...
打造消费“新三样”!名单公示,... 11月20日,两部委正式公示50个拟入选试点城市名单,4个直辖市、5个计划单列市全部入选,其余41个...
广东乒乓男团摘铜 林高远表示“... 11月20日,当袁烜松顶住压力击败曹巍,帮助广东队在十五运会乒乓球男团铜牌战中以3比0击败黑龙江队时...
ASMPT(00522.HK)... 格隆汇11月21日丨根据联交所最新权益披露资料显示,2025年11月17日,ASMPT(00522....
紫光股份:天风证券大幅下调其2... 投资者提问:尽管有机构给出“增持”评级,但天风证券在最新报告中却大幅下调了公司2025年的净利润预测...