该工作由加州大学伯克利分校、香港大学研究者共同完成。忆生科技创始人马毅为作者之一。
论文标题:Language-Image Alignment with Fixed Text Encoders
地址:https://arxiv.org/pdf/2506.04209
GitHub:https://jingfeng0705.github.io/LIFT/
1. 研究背景
自 CLIP 横空出世以来,「对比学习 + 双塔结构」成为视觉-语言表征的事实标准:文本、图像编码器从零开始共同训练,靠大规模检索式数据集学习跨模态对齐。然而,这一流程计算开销巨大,且经常牺牲对组合语义(例如“红色汽车上放着绿色杯子”)的细粒度理解能力。团队由此发问:真的必须同时训练两个编码器吗? (jingfeng0705.github.io)
2. 核心问题
论文《Language-Image Alignment with Fixed Text Encoders》(简称 LIFT)首次系统性地检验:预训练的大语言模型(LLM)本身是否已经是一套足够强大的文本编码器,能否只靠它提供的离线文本嵌入,便高效指导视觉表征学习?(ar5iv.org)
3. 方法概述
LIFT 依旧采用 CLIP 式双塔,但仅保留三步核心流程:
离线文本嵌入:冻结 LLM(如 GPT-系列)的最后隐藏层,将所有 caption 编为 zTz^{T}。
图像塔训练:仅更新视觉编码器 fθimgf_{\theta}^{img} 与投影头 fϕheadf_{\phi}^{head},最小化图像嵌入与 zTz^{T} 的对齐损失。
线上推断:推理阶段完全复用离线文本向量,无需再次调用 LLM。
该设计将文本侧的 O(n2)\mathcal{O}(n^{2}) 计算(n 为 token 长度)降为常数级离线代价,令训练 FLOPs 至少降低 25.5%(短句)至 35.7%(长句),显存下降 6.8%-12.6%。(jingfeng0705.github.io)
4. 关键创新与贡献
5. 实验设计一览
训练集:DataComp-1B(网页短句)与 Recap-DataComp-1B(VLM 生成长句)两套对照语料。
评测维度:
组合推理:SugarCrepe 七项微任务检验词序、属性置换、关系置换。
零样本识别 / 检索:ImageNet-1K、MS-COCO Caption retrieval。
多模态推理:将 LIFT/CLIP 分别接入 LLaVA,在 MMBench、POPE、MMVet 等基准评测。
消融:对比不同 LLM(OPT-1.3B、Llama-7B)作文本塔,检验文本嵌入质量与视觉对齐的关联度。
6. 结果解读
组合语义:LIFT 在 “add attribute / replace relation” 等细粒度任务中可比 CLIP 高 10-18 个点;显示 LLM 生成的 embedding 对组合特征更灵敏。
长 Caption:CLIP 文本塔因偏向句法相似度,遇到冗长合成描述时会“被噪声淹没”;LIFT 则凭 LLM 自监督多样语料训练的鲁棒 embedding 获益显著。
推理迁移:组合感知能力的提升直接转化为 MM 场景的物体定位、属性判断与关系推理得分增益。
7. 工程价值与潜在应用
资源友好:无须再为每轮练模型重复 tokenization & LLM 前向,云端与本地都能节省 GPU 时长与能耗。
灵活替换:只要 LLM 升级,离线重嵌文本即可,视觉塔可在旧 checkpoint 上继续增量训练。
行业落地:对长文本或细粒度语义要求高的场景(电商多属性检索、GIS 场景解析、医学影像报告生成)尤为受益。
8. 展望
LIFT 目前不更新文本塔,当视觉侧需要对齐全新概念词汇时,仍需重新离线嵌入。
未来可探索:
利用 可学习适配器 微调冻结 LLM,使文本空间轻量自适应特域;
将 LIFT 思想扩展至 视频-文本对齐;
结合自监督视觉预训练(例如 Masked Image Modeling)进一步减少标注依赖。
9. 结语
LIFT 以“固定文本,专注视觉”的极简策略,打破了对比学习时代“必须双塔同训”的思维定势:它在节省 1/3 计算成本的同时,于组合推理、长句理解、多模态推理上全面超越 CLIP,向社区展示了 LLM 对视觉学习的直接赋能潜力。随着更强、更通用的文本大模型不断涌现,LIFT 提供了一条更低成本、可渐进演化的视觉-语言学习新路径。
LIFT 及其同门的一系列工作展示了一条不同于“更大-更贵-更黑箱”的进化路径:先原理、后规模。通过把冗余还原为信息原理可解释的“多余位”,团队证明了在保持或提升性能的同时,模型可以变得更轻、更快、更稳、更懂语义。随着这些原则在更广泛任务上的验证,“原理驱动”的设计范式正加速开启后经验试错时代的 AI 新篇章。