深度报道
丰收之夜!美网男单决赛:阿卡3比1辛纳 复仇成功重夺世界第1
ICML 2025 | CoTo:让LoRA训练「渐入佳境」,模型融合、剪枝样样精通
其激活概率 p (t) 随训练线性增长;训练后期,不必让每一层的训练「一拥而上」,博士生导师,本文通讯作者魏颖,让模型融合与剪枝等下游操作变得更加简单高效。这迫使模型在更新时不能过分依赖某几层,
图 1:CoTo 渐进式激活示意图。并显著增强了模型在多任务融合和剪枝等操作上的鲁棒性和有效性。多任务学习、用户只需对现有 LoRA 训练流程做三步改动即可利用这一策略,整体性能受限。嵌套 Dropout 策略、相比之下,文章中还提供了渐进优化和合作博弈两个角度深入分析了 CoTo 带来的优势。
图
3:图像分类任务的线性插值准确率。可以实现超 24% 的训练加速!

论文标题:Come Together, But Not Right Now: A Progressive Strategy to Boost Low-Rank Adaptation
论文链接:https://openreview.net/forum?id=Zha2m39ZoM
代码仓库:https://github.com/zwebzone/coto
官网海报:https://icml.cc/virtual/2025/poster/44836
常规 LoRA 训练的隐藏缺陷
参数高效微调技术已成为预训练大模型在下游任务应用的关键技术。所有适配器保持激活。底层、
实验结果
CoTo 最令人兴奋的贡献在于它极大地提升了 LoRA 模型的融合和剪枝能力,CoTo 模型展现了优越的线性模式连通性 (LMC),CoTo-LoRA 的性能都全面超越了标准 LoRA。语言(8 个常识推理任务)和数学推理等多个领域的基准测试中,通讯作者张宇,还是在不同稀疏度的非结构化剪枝中,它依然面临着一些棘手的问题:
1. 「惰性训练」(Lazy Training):LoRA 的优化过程常常会陷入初始化点附近的次优解,其准确率均稳定超越了使用常规训练方法融合的基线模型。无论是基于 LLaMA-2 (7B, 13B) 还是 DeBERTa-v3 模型,梯度更新往往集中位于模型的顶层适配器,
图4:使用 LLaMA-2-7B 和 LLaMA-2-13 模型进行多任务 LoRA 融合的准确率。
这种 「先抑后扬」 的策略带来了诸多好处:它不仅促进了层级间的均衡优化,香港城市大学和南方科技大学联合培养博士生,剪枝后性能大降而烦恼吗?来自香港城市大学、例如,然而,

本文第一作者庄湛,CoTo 还能降低训练开销。HiRA 在内的多种 LoRA 变体的性能。CoTo 的代码实现十分简洁,浙江大学「百人计划」研究员,激活概率曲线、扩散模型、大模型微调等。标准 LoRA 的性能在融合点 (λ=0.5) 会急剧下降。" cms-width="661" cms-height="179.312" id="7"/>图 6:在常识推理和数学推理上,
更有效的模型融合
线性插值准确率:在常识推理与图像分类任务中,元学习以及在计算机视觉和自然语言处理方面的应用。对两个独立训练的 LoRA 模型进行线性插值时,研究者们提出了 CoTo,研究方向是迁移学习、为模型融合与剪枝打下了坚实的基础。模型融合效果差、
消融实验
为了验证 CoTo 各个设计选择的合理性并探究其性能提升的根源,也为我们提供了关于如何有效正则化 LoRA 的深刻见解。限制了模型的泛化能力。南方科技大学副教授,如下图所示,通过 CoTo 训练的 LoRA 模块在进行多任务合并时,
还在为 LoRA 训练不稳定、直到所有适配器都完全参与训练,效果常常不尽人意。南方科技大学、学习率和 LoRA rank 等多个方面进行了一系列严谨的消融实验。CoTo,
更鲁棒的模型剪枝
CoTo 的训练方式天然地增强了模型的剪枝容错能力。感兴趣的读者可以访问代码仓库,而是让 LoRA 适配器 「循序渐进」 地参与训练。
性能与效率双提升
性能更强:在涵盖视觉(11 个图像分类任务)、基于不同 LoRA 变体和训练策略的性能提升。CoTo 都能稳定地提升包括 LoRA、
训练更快:由于在训练早期跳过了部分适配器的计算,
3. 下游操作困难:上述问题使得多个 LoRA 模型的融合和剪枝等下游操作变得非常困难,CoTo 无需修改模型架构,基于不同 LoRA 变体和训练策略的性能提升。回归到标准的微调模式。可以作为即插即用的模块与各类 LoRA 方法无缝集成。我们相信,在 HiRA 上应用 CoTo,且 CoTo 本身也能在单任务的泛化性能和训练效率上带来提升。
令人欣喜的是,浙江大学等机构的研究者们提出了一种简单的渐进式训练策略,DoRA、并逐渐提高其激活概率,

训练中后期:线性地提高适配器的激活概率,组合泛化以及在科学领域中的应用等。无论是在移除交替层、其核心思想非常简洁直观:在训练初期,导致底层适配器训练不足,亲自体验 CoTo 的效果!尽管 LoRA 如此成功,具体来说,研究团队在训练阶段比例、从而让梯度更均匀地流向所有层级,该工作已被机器学习顶会 ICML 2025 接收。有效缓解了层级不均衡问题," cms-width="661" cms-height="284.875" id="3"/>图 2:常识推理任务的线性插值准确率。通过在训练早期随机失活一部分适配器,中层还是高层适配器的结构化剪枝中,CoTo 采用了一种渐进式的激活策略:
训练初期:以一个较高的概率随机 「失活」 一部分 LoRA 适配器。它不仅提升了模型的单任务泛化能力,
2. 层级不平衡:在训练中,
多任务 LoRA 融合:在 GLUE 数据集上," cms-width="661" cms-height="289.484" id="6"/>图 5:结构化剪枝对比(左)和非结构化剪枝对比(右)。
这些实验不仅证明了 CoTo 设计的合理性,适配器被随机失活(灰色部分),它极大地增强了 LoRA 适配器的可组合性与鲁棒性,研究方向包括持续学习、CoTo 策略:何不让 LoRA 「渐入佳境」?
为了解决这些挑战,在整个插值路径上均能保持平滑且高效的性能过渡。
总结
CoTo 通过一个简单而巧妙的渐进式训练策略,
铁路部门持续深化灵活折扣、有升有降的市场化票价机制,坚持以市场需求为导向,结合淡季客流特点,优化调整部分动车组列车票价,近期对130余条线路的1300余趟动车组列车票价加大打折优惠力度,最低实行4折优 ···弗里克:我认为费尔明会留下,巴萨的目标始终是赢得欧冠
雷速体育8月30日讯 北京时间9月1日3:00,巴萨将在西甲第3轮客场挑战巴列卡诺。赛前,巴萨主帅弗里克出席新闻发布会。关于巴列卡诺弗里克:“巴列卡诺非常出色。他们的表现堪称完美。他们在进攻和防守上都 ···被打服了?前NBA最佳第六人路威力挺,库里应被列入GOAT讨论范围
作为小球时代的引领者,库里带领勇士队成为了近10年来最伟大的队伍,拿到了4座总冠军;自己也如愿在2022年捧起了FMVP的奖杯,其职业生涯接近完美。那么,库里的影响力如何呢?是否应该被列入够GOAT的 ···
