(由多段落组成)
近年来,随着深度学习技术的快速发展,模型架构设计成为了研究的重要方向。然而,从头训练一个新架构的成本往往过高,这限制了研究人员对新架构的探索能力。为了解决这一问题,李飞飞团队提出了一种名为“嫁接”的创新方法,该方法通过直接修改预训练模型的关键组件来测试新的架构设计。
这种方法的核心思想是将预训练模型作为基础,通过替换或调整其内部组件来验证新架构的有效性。相比传统的从头训练方式,“嫁接”只需使用不到2%的预训练计算量即可完成实验,大大降低了资源消耗。例如,在图像生成领域广泛使用的DiTs模型中,研究人员构建了一个基于DiT-XL/2的测试平台,并通过“嫁接”技术开发了一系列混合设计。实验结果表明,这些混合设计在性能上与原始模型相差无几,同时显著减少了计算成本。
具体而言,“嫁接”方法分为两个关键阶段:激活蒸馏和轻量级微调。激活蒸馏用于初始化新算子,使其输出尽可能接近原有算子的行为;而轻量级微调则通过有限数据对模型进行端到端优化,从而减少因组件替换导致的误差累积。此外,为了评估“嫁接”本身的可靠性,研究团队还引入了自嫁接作为对照实验,以确保方法的科学性和有效性。
通过三项实验,研究团队验证了“嫁接”方法的可行性和高效性。在混合架构实验中,研究人员成功地将DiT-XL/2中的注意力层替换为滑动窗口注意力或门控卷积,生成质量仅略有下降。在文本到图像生成实验中,PixArt-Σ模型的速度提升了1.43倍,而图像质量下降不足2%。而在并行化改造实验中,通过重组模型结构,研究人员进一步证明了并行架构在减少深度的同时提升生成质量的可能性。
尽管如此,研究团队也指出了该方法的局限性,例如目前仅在DiT-XL/2模型上进行了验证,且测试范围局限于Hyena-X和SWA等特定算子。不过,团队认为“嫁接”方法在探索新型模型架构方面具有巨大潜力,特别是在需要高效利用计算资源的场景中。目前,相关代码和模型已全部开源,供全球研究者参考和使用。
本文来源: