李飞飞团队创新提出模型架构设计新思路：通过嫁接方法直接利用预训练模型关键组件，实现轻量级微调无需从头训练

（由多段落组成）

近年来，随着深度学习技术的快速发展，模型架构设计成为了研究的重要方向。然而，从头训练一个新架构的成本往往过高，这限制了研究人员对新架构的探索能力。为了解决这一问题，李飞飞团队提出了一种名为“嫁接”的创新方法，该方法通过直接修改预训练模型的关键组件来测试新的架构设计。

这种方法的核心思想是将预训练模型作为基础，通过替换或调整其内部组件来验证新架构的有效性。相比传统的从头训练方式，“嫁接”只需使用不到2%的预训练计算量即可完成实验，大大降低了资源消耗。例如，在图像生成领域广泛使用的DiTs模型中，研究人员构建了一个基于DiT-XL/2的测试平台，并通过“嫁接”技术开发了一系列混合设计。实验结果表明，这些混合设计在性能上与原始模型相差无几，同时显著减少了计算成本。

具体而言，“嫁接”方法分为两个关键阶段：激活蒸馏和轻量级微调。激活蒸馏用于初始化新算子，使其输出尽可能接近原有算子的行为；而轻量级微调则通过有限数据对模型进行端到端优化，从而减少因组件替换导致的误差累积。此外，为了评估“嫁接”本身的可靠性，研究团队还引入了自嫁接作为对照实验，以确保方法的科学性和有效性。

通过三项实验，研究团队验证了“嫁接”方法的可行性和高效性。在混合架构实验中，研究人员成功地将DiT-XL/2中的注意力层替换为滑动窗口注意力或门控卷积，生成质量仅略有下降。在文本到图像生成实验中，PixArt-Σ模型的速度提升了1.43倍，而图像质量下降不足2%。而在并行化改造实验中，通过重组模型结构，研究人员进一步证明了并行架构在减少深度的同时提升生成质量的可能性。

尽管如此，研究团队也指出了该方法的局限性，例如目前仅在DiT-XL/2模型上进行了验证，且测试范围局限于Hyena-X和SWA等特定算子。不过，团队认为“嫁接”方法在探索新型模型架构方面具有巨大潜力，特别是在需要高效利用计算资源的场景中。目前，相关代码和模型已全部开源，供全球研究者参考和使用。

本文来源：

量子位【阅读原文】

# 每日AI快讯 # 嫁接方法 # 李飞飞 # 模型架构设计 # 轻量级微调 # 预训练模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

李飞飞团队创新提出模型架构设计新思路：通过嫁接方法直接利用预训练模型关键组件，实现轻量级微调无需从头训练

AI ASMR热潮：8天17万粉增长，5000万播放量，揭秘自发性知觉经络反应视频制作的宝藏神器与ASMR音频成功秘诀

张雪峰解读AI技术影响：AI视频创作为年轻人带来更多就业机会，超级个体时代来临助力志愿填报选择

相关文章

暂无评论

AI最新资讯