SimDINO:用编码率正则化重构DINO和DINOv2 ， ICML2025

该工作由忆生科技创始团队成员、忆生科技旗下研究人员深度参与，联合加州大学伯克利分校、微软研究院、香港大学等多家学校及机构共同完成。

论文标题：Simplifying DINO via Coding Rate Regularization

地址：https://arxiv.org/abs/2502.10385

论文全文：https://arxiv.org/pdf/2502.10385

GitHub：https://robinwu218.github.io/SimDINO

顶会收录：ICML2025

媒体详尽报道：忆生科技团队开源新作：用编码率正则化重构视觉自监督学习范式，“少即是多”

下图中TranscEngram 即忆生科技

TranscEngram 为忆生科技

研究简介：

在论文《SimDINO:Simplifying DINO via Coding Rate Regularization》中，作者针对当前主流的自监督学习模型的训练复杂性和不稳定性，提出了一种简化方法，称为SimDINO和SimDINOv2。该方法通过在损失函数中引入显式的编码率正则化项，取代了原有训练流程中的多种经验性设计和超参数调整，从而避免了表示坍塌问题。实验结果表明，简化后的模型在下游任务中表现出更高的鲁棒性和更优的性能。

主要内容概述：

研究背景：
- 自监督学习的挑战：自监督学习（SSL）在从未标记图像数据中学习表示方面取得了显著进展。然而，防止表示坍塌（即模型将所有输入映射到相同输出）仍然是一个关键挑战。
- 现有方法的问题：DINO和DINOv2等模型通过复杂的训练流程和精心调整的超参数来避免表示坍塌，这使得训练过程复杂且不稳定，难以在新领域中进行改进或适应。
提出的方法：
- 编码率正则化：作者在损失函数中添加了一个显式的编码率正则化项，以直接避免表示坍塌。
- 简化训练流程：通过引入编码率正则化，移除了原有训练流程中的多种经验性设计和超参数，使得训练过程更加简洁和稳定。
实验验证：
- 鲁棒性评估：简化后的SimDINO和SimDINOv2模型对网络架构和超参数的选择表现出更高的鲁棒性。
- 性能提升：在下游任务中，简化后的模型学习到的表示质量更高，性能优于原始的DINO和DINOv2模型。
结论：
- 简化设计的优势：通过采用简化的设计原则，模型训练过程变得更加稳定，且易于在新领域中进行适应和改进。
- 未来工作：作者建议在其他自监督学习框架中探索编码率正则化的应用，以进一步验证其广泛适用性。

参考文献：

Wu, Z., Zhang, J., Pai, D., Wang, X., Singh, C., Yang, J., Gao, J., & Ma, Y. (2025). Simplifying DINO via Coding Rate Regularization. arXiv preprint arXiv:2502.10385. https://arxiv.org/abs/2502.10385

附注：

该论文的代码和更多信息可在项目主页获取：https://robinwu218.github.io/SimDINO

SimDINO:用编码率正则化重构DINO和DINOv2 ， ICML2025

视频｜忆生科技创始人马毅上海交大学术演讲：Pursuing the Nature of Intelligence

CAD-MLLM：文本、图像、点云任意模态输入，AI能够一键生成高质量CAD模型了

监督微调（SFT）vs 强化学习（RL）

忆生科技创始人马毅谈机器人灵巧手：回归技术本质，警惕盲目乐观

SimDINO:用编码率正则化重构DINO和DINOv2 ， ICML2025

忆生科技受邀参加香港大学上海智能计算研究院揭牌仪式

香港民青局副局长梁宏正到访忆生科技点赞人工智能创新成果

探寻智能本质，开创AI新时代，忆生科技创始人马毅新年科学演讲

迈向AI2.0 加快智能化发展的阶段性跃升

探索智能本质，理解记忆机制，加速迈向自主智能时代