无需数据配对，文本嵌入也能互通？康奈尔研究：所有模型殊途同归_热点

创始人

2025-05-24 01:46:40

无需任何配对数据，就能实现文本嵌入的模型空间转换？！

曾因llya离职OpenAI，在互联网上掀起讨论飓风的柏拉图表示假说提出：

那么是否存在针对文本模型的通用潜在结构呢？

康奈尔大学现在给出了Plus版答案——vec2vec，首个无监督文本嵌入的跨向量空间转换方法。

利用共享潜在空间，不仅保留嵌入结构和底层输入语义，还能够反推提取嵌入信息。

vec2vec在目标嵌入空间中与真实向量的余弦相似度高达0.92，并在超过8000个随机打乱的嵌入上实现完美匹配，揭示了所有编码器在不同架构或训练数据下都拥有几乎相同的表示形式。

具体内容，接下来我们一一拆解。

文本嵌入作为NLP的核心技术，存在许多基于不同数据集、数据洗牌方式和初始化的嵌入模型。

但不同模型之间由于训练数据、架构不同，生成的嵌入向量空间完全不兼容，无法直接进行对齐。

于是团队从柏拉图表示假说中汲取灵感，提出强柏拉图表示假说（S-PRH）：

vec2vec就是在此基础上构建，核心思想就是学习和利用文本表示的通用潜在结构，实现表征的嵌入空间转移，而无需任何成对的数据或编码器。

vec2vec采用模块化架构，其中嵌入向量通过特定空间的适配器模块进行编码和解码，并经过共享主干网络完成传递。

与图像不同，由于嵌入向量不具有空间偏向性，因此采用带有残差连接、层归一化和SiLU非线性激活函数的多层感知机（MLP）替代CNN。

为了确保转换后的向量保留嵌入语义和几何结构，还引入了以下损失函数进行优化：

团队使用三个指标衡量转换质量：

如图所示，在自然问题（NQ）数据集上，vec2vec在相同主干模型配对（如GTE与E5）中达到接近1.0的Top-1准确率，显著优于基线。

vec2vec在分布外数据（如推文和医疗记录）上也表现稳健。例如，在TweetTopic上，GTE到Stella的余弦相似度达0.92，Top-1准确率100%。

下表也验证了vec2vec在单模态与多模态嵌入（如CLIP）中的转换潜力。

同时实验也证明，vec2vec不仅可以保留嵌入的几何结构，还保留足够的语义以实现属性推断。

在某些模型配对中，80%的文档可通过零样本反演恢复内容，尽管结果还并不完美，但也再次证明嵌入几乎与其输入一样体现高保真的语义信息。

以上有关vec2vec的实验结果，为强柏拉图表示假说提供了有力证据，针对CLIP的结果也初步表明可以适用于其他模态。

诚然，这将有助于跨系统访问信息，具有巨大的知识共享潜力，但随之而来的安全风险也必须考虑其中。

仅通过嵌入向量就可实现语义信息转换的能力，将会让底层文本的敏感信息更容易受到恶意提取和攻击，威胁向量数据库安全。

这对数据安全来说既是突破也是挑战，那么你对此有什么看法呢？欢迎在评论区留言讨论～

论文链接：https://arxiv.org/abs/2505.12540

参考链接：

[1]https://x.com/rishi_d_jha/status/1925212069168910340

[2]https://x.com/jxmnop/status/1925224612872233081

[3]https://www.youtube.com/watch?v=eJpfoDENSBc