忆生科技
Published on 2025-06-16 / 8 Visits

LIFT: 用固定文本编码器重塑语言-图像对齐范式

该工作由加州大学伯克利分校、香港大学研究者共同完成。忆生科技创始人马毅为作者之一。

论文标题:Language-Image Alignment with Fixed Text Encoders

地址:https://arxiv.org/pdf/2506.04209

GitHub:https://jingfeng0705.github.io/LIFT/

1. 研究背景

自 CLIP 横空出世以来,「对比学习 + 双塔结构」成为视觉-语言表征的事实标准:文本、图像编码器从零开始共同训练,靠大规模检索式数据集学习跨模态对齐。然而,这一流程计算开销巨大,且经常牺牲对组合语义(例如“红色汽车上放着绿色杯子”)的细粒度理解能力。团队由此发问:真的必须同时训练两个编码器吗? (jingfeng0705.github.io)

2. 核心问题

论文《Language-Image Alignment with Fixed Text Encoders》(简称 LIFT)首次系统性地检验:预训练的大语言模型(LLM)本身是否已经是一套足够强大的文本编码器,能否只靠它提供的离线文本嵌入,便高效指导视觉表征学习?(ar5iv.org)

3. 方法概述

LIFT 依旧采用 CLIP 式双塔,但仅保留三步核心流程:

  1. 离线文本嵌入:冻结 LLM(如 GPT-系列)的最后隐藏层,将所有 caption 编为 zTz^{T}。

  2. 图像塔训练:仅更新视觉编码器 fθimgf_{\theta}^{img} 与投影头 fϕheadf_{\phi}^{head},最小化图像嵌入与 zTz^{T} 的对齐损失。

  3. 线上推断:推理阶段完全复用离线文本向量,无需再次调用 LLM。
    该设计将文本侧的 O(n2)\mathcal{O}(n^{2}) 计算(n 为 token 长度)降为常数级离线代价,令训练 FLOPs 至少降低 25.5%(短句)至 35.7%(长句),显存下降 6.8%-12.6%。(jingfeng0705.github.io)

4. 关键创新与贡献

序号

创新点

价值

固定文本编码器:首次将 LLM 直接用作文本塔,消除双塔共同收敛难题

训练更稳定、超参数更少

组合语义优势:利用自回归语言优化目标保留词序、对象-属性/对象-对象关系

SugarCrepe 基准平均准确率 +6.8%(短 caption)/+7.9%(长 caption)相较 CLIP

长文本友好:在 DataComp-Recap-1B 这类合成长 caption 语料下,零样本分类等任务平均提升 11%

(jingfeng0705.github.io)

下游迁移:把 LIFT 作为视觉塔嵌入 LLaVA,可在 MMBench 等 6 项多模态推理任务中 5-6 项领先

(jingfeng0705.github.io)

资源效率:离线文本嵌入让训练成本成比例下降,适合中小实验室复现

(jingfeng0705.github.io)

5. 实验设计一览

  • 训练集:DataComp-1B(网页短句)与 Recap-DataComp-1B(VLM 生成长句)两套对照语料。

  • 评测维度

    • 组合推理:SugarCrepe 七项微任务检验词序、属性置换、关系置换。

    • 零样本识别 / 检索:ImageNet-1K、MS-COCO Caption retrieval。

    • 多模态推理:将 LIFT/CLIP 分别接入 LLaVA,在 MMBench、POPE、MMVet 等基准评测。

  • 消融:对比不同 LLM(OPT-1.3B、Llama-7B)作文本塔,检验文本嵌入质量与视觉对齐的关联度。

6. 结果解读

  1. 组合语义:LIFT 在 “add attribute / replace relation” 等细粒度任务中可比 CLIP 高 10-18 个点;显示 LLM 生成的 embedding 对组合特征更灵敏。

  2. 长 Caption:CLIP 文本塔因偏向句法相似度,遇到冗长合成描述时会“被噪声淹没”;LIFT 则凭 LLM 自监督多样语料训练的鲁棒 embedding 获益显著。

  3. 推理迁移:组合感知能力的提升直接转化为 MM 场景的物体定位、属性判断与关系推理得分增益。

7. 工程价值与潜在应用

  • 资源友好:无须再为每轮练模型重复 tokenization & LLM 前向,云端与本地都能节省 GPU 时长与能耗。

  • 灵活替换:只要 LLM 升级,离线重嵌文本即可,视觉塔可在旧 checkpoint 上继续增量训练。

  • 行业落地:对长文本或细粒度语义要求高的场景(电商多属性检索、GIS 场景解析、医学影像报告生成)尤为受益。

8. 展望

  • LIFT 目前不更新文本塔,当视觉侧需要对齐全新概念词汇时,仍需重新离线嵌入。

  • 未来可探索:

    1. 利用 可学习适配器 微调冻结 LLM,使文本空间轻量自适应特域;

    2. 将 LIFT 思想扩展至 视频-文本对齐

    3. 结合自监督视觉预训练(例如 Masked Image Modeling)进一步减少标注依赖。

9. 结语

LIFT 以“固定文本,专注视觉”的极简策略,打破了对比学习时代“必须双塔同训”的思维定势:它在节省 1/3 计算成本的同时,于组合推理、长句理解、多模态推理上全面超越 CLIP,向社区展示了 LLM 对视觉学习的直接赋能潜力。随着更强、更通用的文本大模型不断涌现,LIFT 提供了一条更低成本、可渐进演化的视觉-语言学习新路径。

LIFT 及其同门的一系列工作展示了一条不同于“更大-更贵-更黑箱”的进化路径:先原理、后规模。通过把冗余还原为信息原理可解释的“多余位”,团队证明了在保持或提升性能的同时,模型可以变得更轻、更快、更稳、更懂语义。随着这些原则在更广泛任务上的验证,“原理驱动”的设计范式正加速开启后经验试错时代的 AI 新篇章。