LongSplat 是一个专为长序列图像设计的实时3D高斯重建框架。核心思想是在流式增量更新机制下,实现对3D高斯场的持续优化:每处理一帧新图像时,一方面融合当前帧提取的场景信息,另一方面压缩历史帧累积的冗余信息。

该工作已确认入选将于新加坡举行的顶级人工智能学术会议 AAAI 2026口头报告(Oral)环节。
背景
在计算机视觉领域,如何从图像进行高质量的重建和新视角图像合成一直是热点研究问题。其中3D高斯溅射(3D Gaussian Splatting, 3DGS)作为一种新兴技术,因能以众多三维高斯点表示场景并实现高保真、实时的渲染效果而备受关注。然而,大部分现有3DGS方法都需要逐场景的慢速优化,即每个场景单独训练模型参数,往往耗时数分钟甚至数小时。如此缓慢的重建过程对于需要实时感知和响应的应用(例如自主机器人、AR/VR设备),是一个重大障碍。现实需求迫切希望出现能够连续处理长序列视觉数据、随每帧更新并保持高质量重建的系统。
为提升重建效率,近年出现了一些可泛化的3DGS模型——利用前馈神经网络直接从图像预测3D高斯参数。这类方法摆脱了每个场景单独优化的过程,在稀疏视角下效果良好。但当输入是长序列或高密度多视角时,这些方法性能开始明显下降:随着帧数增加,预测的高斯点变得冗余且噪声增多,出现诸如“漂浮点”和模糊区域等重建瑕疵。同时,内存和计算开销也随视角数量激增,难以扩展到包含上百帧的大型真实场景。导致这些局限的根本原因在于:现有方法缺乏对全局历史高斯的建模,以及缺少高效的增量更新机制。也就是说,它们无法在处理新帧的同时有效利用和更新已有的3D场景表示。尽管已有一些工作尝试将可泛化3DGS拓展到序列输入,但仍然在增量更新方面表现不佳,或者限定在固定长度序列的流程上,难以灵活扩展到真实的在线长序列重建场景。
方法

针对上述痛点,论文提出了LongSplat——一个专为长序列图像设计的实时3D高斯重建框架。LongSplat的核心思想是在流式增量更新机制下,实现对3D高斯场的持续优化:每处理一帧新图像时,一方面融合当前帧提取的场景信息,另一方面压缩历史帧累积的冗余信息。具体而言,这一机制每帧执行两项关键操作:
· 自适应压缩(Adaptive Compression):针对历史视角累积的高斯点,选择性地压缩并删除冗余的部分,以控制表示规模,降低内存和渲染开销。这样可避免长时间运行后高斯点无限增长的问题。
· 在线融合(Online Integration):将当前帧提取的新的3D高斯与全局历史状态进行融合更新。每到一帧,模型将新观测得到的高斯增量合并进全局场景,实现对3D场的逐步精炼和完善。
通过交替执行上述压缩和融合,LongSplat能够逐帧精炼场景的3D高斯表示,从而缓解一般前馈预测方法“逐像素生成大量冗余高斯”的核心缺陷。这种逐步更新策略不仅提高了重建的可扩展性和内存效率,还显著提升多视角间的结果一致性。值得一提的是,这种压缩机制为未来动态场景建模提供了可能:模型可以在不重复处理整个序列的情况下,轻量级地移除过时信息,持续适应新内容。
为了实现这一点,LongSplat设计了“高斯-图像表示”(Gaussian-Image Representation, GIR)用于连接3D高斯场与2D图像空间。GIR可以被看作是一种将3D高斯参数投射编码到2D图像格式的表示形式。具体来说,它把历史帧累积的3D高斯参数按照当前相机视角投影到一个二维平面上,每个像素存储权重最高的高斯属性。通过这种方式,GIR在视图对齐的2D图像平面内高效整合了来自历史帧的场景信息,并为每个像素建立了与其背后3D高斯的一一对应关系。为什么GIR很重要? 首先,它使得跨帧的信息融合成为可能:我们可以将历史高斯投影到当前帧,与当前图像提取的特征在同一个平面上进行融合,从而增强重建的时空一致性。其次,GIR提供了身份跟踪能力:借助每个像素记录的高斯属性,模型能够反向识别和删除高斯点。再次,GIR的图像结构使许多操作可以在2D完成,例如使用卷积网络处理3D属性、基于图像空间误差更新全局3D高斯场,以及执行局部区域的高斯重投影来计算几何误差或3D重叠度(IoU)等。换言之,GIR架起了3D场景建模与2D图像监督之间的桥梁,在保证精度的同时极大提高了内存利用效率和运算速度。
LongSplat还利用已有的图像压缩指导技术(如LightGaussian方法)来提升重建质量。通过预先对一些场景进行优化以得到高保真的“教师”高斯集合,并将其投射成GIR形式作为训练监督,LongSplat在训练中得以学习到更加紧凑且高保真的3D高斯表示,而无需直接计算复杂的3D损失。这一策略结合了2D监督的高效性和3D优化结果的准确性,进一步提升了模型的性能。
LongSplat围绕“增量更新”和“高斯-图像表示”提出了全新的思路,成功解决了长序列3D重建中的效率和冗余难题。这一框架在保持渲染质量的同时,大幅降低了存储和计算成本,使任意视角、长时间序列的实时重建成为可能。
结果
我们在多项实验中验证了LongSplat的效率与效果表现。结果表明,与现有方法相比,LongSplat在实时重建和模型紧凑性之间取得了领先的性能。具体来说,LongSplat能够实现实时渲染,同时相比先前的逐像素高斯预测方法,将全局高斯数量减少了约44%。高斯数量的锐减意味着模型表示更精简,在内存占用和渲染加速上更具优势。
在DL3DV基准(一个多视角3D重建评测数据集)上,LongSplat的长序列(120帧)的重建质量显著超过基线方法。例如,与基础模型DepthSplat相比,LongSplat的峰值信噪比(PSNR)提高了约3.6 dB。同时,LongSplat在结构相似性(SSIM)和感知距离(LPIPS)等指标上也取得更佳表现。这些指标提升表明,新方法在还原图像细节和逼真度方面更胜一筹。

此外,LongSplat展现出优异的长序列可扩展性。当输入视角数量逐渐增加时,传统方法由于高斯点不受控增长,重建质量往往大幅下降——例如DepthSplat在120帧情况下PSNR跌至仅约17.8。相比之下,LongSplat的重建结果依然稳定:即使处理120帧,压缩版本的LongSplat仍保持了21.3 dB以上的高PSNR,且感知误差LPIPS维持在较低水平。在50帧这样的中等序列长度下,LongSplat完整模型达到约23.7 dB的PSNR,较DepthSplat提升2.3 dB,而且其压缩变体在去除约43.8%的高斯后依然有23.5 dB的PSNR,几乎不损失重建质量。这说明LongSplat能够在大幅压缩模型的同时,有效保留关键的场景信息,实现质量与紧凑性的双赢。
主观上,LongSplat生成的新视角图像也更加清晰一致。对比渲染结果可以发现,LongSplat有效去除了许多竞争方法中常见的“漂浮伪影”,并且更好地保留了物体的精细细节。无论是在纹理尖锐的区域,还是在复杂几何的部位,LongSplat的重建都更加准确稳定。这一点从论文提供的可视化结果中也得到了印证:LongSplat相比MVSplat360、DepthSplat等基线,生成的场景在边缘细节、物体轮廓连续性上都更胜一筹。由此可见,该方法不仅在指标上领先,视觉效果上也达到了更高的真实性和一致性。

应用价值与意义
LongSplat的出现,为实时3D场景感知和长时序环境重建打开了新的大门。首先,在机器人自主导航、增强现实(AR)等需要处理连续视频流的应用中,LongSplat可望充当关键组件:它能够一边接收来自相机的图像序列输入,一边即时构建和更新周围环境的3D模型,使智能体对动态环境的变化做出快速反应。例如,一台移动机器人搭载LongSplat,可以在行进过程中不断整合新的视角,对周遭环境进行高质量3D重建,并及时剔除过时信息,从而为导航决策提供稳定可靠的环境地图支持。再如,在AR/VR场景下,戴着AR眼镜的用户环顾四周时,LongSplat能够将所见画面实时转换为三维数字内容,供虚拟物体与真实场景交互,对应的渲染操作也因高斯表示的高效而更流畅。
从学术角度来看,LongSplat提供了一种兼顾速度和精度的3D重建范式,证明了通过增量更新+压缩可以克服以往长序列重建中的累积误差和内存难题。它将3D高斯表示和2D卷积处理巧妙结合,使得复杂的3D问题在2D平面上得以高效求解。这种跨维度的创新为后续研究指明了方向。例如,可以引入无姿态的特征提取(免相机位姿输入),这将进一步提升系统的便利性;也可以结合语义理解,在三维重建的同时识别场景中的物体,实现更智能的环境感知。可以预见,随着这些方向的推进,LongSplat的框架将成为更通用的3D感知系统基础。
总而言之,LongSplat突破了以往方法在长序列3D重建上的诸多限制,成功实现了高质量、可扩展的在线重建。它显著降低了冗余并保障了质量,为实时三维感知提供了一个切实可行的解决方案。在产业和研究的交汇处,LongSplat展现出的高效与鲁棒性,具有重要的应用价值和启示意义:未来,我们有理由期待更加大规模、长时段的3D场景重建走出实验室,应用到实际的智能设备与系统中去。