忆生科技
Published on 2025-02-22 / 54 Visits

最大化编码率降低原则MCR²,NeurIPS 2020

论文名称:Learning Diverse and Discriminative Representations via the Principle of Maximal Coding Rate Reduction

地址:https://arxiv.org/abs/2006.08558

论文全文:https://arxiv.org/pdf/2006.08558

顶会收录:NeurIPS 2020

背景与动机

在深度学习中,如何从高维数据中学习低维结构,同时保持类别区分性,是一个重要的问题。现有的方法,如交叉熵损失(Cross-Entropy)、信息瓶颈(Information Bottleneck)和对比学习(Contrastive Learning)等,虽然有效但各有局限。本文提出 最大化编码率降低原则(Maximal Coding Rate Reduction,MCR²),作为一种信息论度量,最大化整个数据集与各类别子集之间的编码率差值,以学习多样且具区分性的表示。

核心理论

  1. 最大编码率降低原则(MCR²)

    • 该原则旨在优化数据表示,使不同类别的特征相互正交(uncorrelated),而同一类别的特征尽可能压缩到低维子空间。

    • 目标是 最大化整体数据的编码率 R(Z) 并最小化各类别的编码率 Rc(Z|Π),即: ΔR(Z,Π,ε)=R(Z,ε)−Rc(Z,ε∣Π)\Delta R(Z, Π, ε) = R(Z, ε) - Rc(Z, ε | Π)

    • 其中,编码率 R(Z,ε)R(Z, ε) 通过数据协方差矩阵的行列式计算,度量数据的紧凑性。

  2. MCR²与现有方法的关系

    • 交叉熵(CE):关注最终分类结果,但难以保证特征的结构化与可解释性。

    • 信息瓶颈(IB):最大化特征与标签之间的互信息,同时最小化特征与输入数据之间的互信息,但可能牺牲泛化性和稳健性。

    • 对比学习(Contrastive Learning):鼓励正样本靠近、负样本远离,但其优化目标较局限于样本对,而MCR²能优化整个数据集的结构。

  3. 理论分析

    • 证明在 高维空间维度足够大编码精度足够高 的情况下,MCR² 具有以下特性:

      • 类别间区分性(Between-Class Discriminative):不同类别的特征正交。

      • 类别内紧凑性(Within-Class Compressible):同类样本的特征落在低维子空间。

      • 最大多样性(Maximally Diverse Representation):每个类别的特征维度尽可能高,但仍保持正交。

实验验证

  1. 监督学习(Supervised Learning)

    • 采用 CIFAR-10 数据集,在 ResNet-18 上训练,使用 MCR² 替代交叉熵损失。

    • 结果表明:

      • MCR² 学习到的特征更加正交,类别内的特征维度更高,相比交叉熵更鲁棒。

      • 在标签噪声比例增加的情况下,MCR² 仍然保持较高的分类准确率,显示出更强的抗噪能力。

  2. 自监督学习(Self-Supervised Learning)

    • 采用数据增强策略(如旋转、翻转等)模拟类别,通过最大化 MCR² 学习不变特征。

    • 结果表明:

      • 仅通过 MCR² 进行训练,无需额外的监督信息,即可获得良好的聚类效果。

      • 采用子空间聚类算法 EnSC 进行分类,MCR² 取得了 比其他高度工程化方法更优的聚类性能

  3. 对比实验

    • 在不同数据集(CIFAR-10、CIFAR-100、STL-10)上,MCR² 均超越多种现有方法,如 JULE、DEC、DAC、DCCM 等。

    • 通过 动态控制特征扩展与压缩(MCR²-CTRL),进一步优化无监督学习的训练效果,使学习到的特征更加稳定。

结论与未来工作

  1. MCR² 统一了监督、自监督、无监督学习,提供了一种基于信息论的表示学习框架。

  2. 在监督学习中,MCR² 学习到的特征更具可解释性,并显著提升了模型的鲁棒性。

  3. 在自监督学习中,MCR² 仅凭数据增强即可学习高质量的特征,有望提升无标签数据的学习能力。

  4. 未来研究方向

    • 进一步优化 MCR² 在深度网络中的层级应用,使不同层次的特征均能最大化编码率降低。

    • 探索 MCR² 在其它任务中的应用,如生成模型、强化学习等

    • 研究 MCR² 在理论上的扩展性,例如如何更严格地界定优化目标的全局最优性

总结:MCR² 提供了一种新的信息论视角,使得深度学习模型能够学习到更加多样化、稳健且具区分性的特征,在监督与自监督任务上均展现出优异性能,并在多个实验中超越现有方法。