Sora2之后,又来了个全新的影视级AI视频模型,它的名字,叫GAGA。

(由多段落组成):

随着Sora2的爆火,AI视频生成领域再次掀起热潮。在这股浪潮中,来自知名技术人曹越老师团队的Sand.ai悄然推出了全新音画同步视频模型——GAGA-1。这款模型在凌晨正式上线,无需邀请码、无需排队,目前完全免费开放使用,一经发布便引发业内关注。作为长期关注AI创作工具的观察者,我有幸第一时间体验了这一国产自研模型的实际表现。

GAGA-1最引人注目的能力在于其人物表演的真实度和情感表达的细腻程度。与市面上多数仅能实现简单口型匹配的AI视频模型不同,GAGA-1在面部微表情、眼神变化、情绪递进以及肢体语言协调性上展现出接近影视级的表现力。尤其是在处理带有台词的角色演绎时,无论是轻笑、叹息还是情绪爆发,都能做到层次分明、自然流畅。虽然距离顶级电影级别的表演仍有差距,但在短剧、互动影游等应用场景中已具备极强的实用价值。

该模型目前集成于https://gaga.art 平台,主要提供三大功能模块:Gaga Actor、Gaga Avatar 和 Library。其中,Gaga Actor 是本次发布的重头戏,搭载的就是全新的 GAGA-1 模型。用户只需上传一张角色图像并输入一段文本提示(Prompt),系统即可在3-4分钟内生成一段5秒或10秒的高清视频(固定16:9比例)。值得一提的是,平台内置的绘图引擎基于Banana模型,但个人建议可结合Seedream 4.0(如豆包、即梦等高质量图像生成器)来打造更具审美水准的角色形象,以获得更理想的输出效果。

通过多个实测案例可以看出,GAGA-1 对复杂情绪和动作指令的理解能力相当出色。例如,在“女孩叹了口气,低头咬唇后坚定地说出‘我决定了,从今天起我们谁都不欠谁了’”这样的 Prompt 下,模型不仅能准确还原叹气、咬唇等细节动作,还能根据不同生成结果呈现出失落无奈或略带愤怒的情绪差异,展现出一定的表演多样性。而在更极端的情绪场景中,比如哭泣后歇斯底里地喊出“我明白了!我不会再来找你了!”,模型也能捕捉到情绪转折点,尽管偶尔会出现结尾吞字或语音节奏不稳的情况。

除了对白表演,GAGA-1 还支持基础的歌唱功能。虽然音调控制尚显抽象,但在趣味性创作中仍具潜力。例如让虚拟角色柯洁演唱网络热曲《技能五子棋》,虽旋律略显魔性,却也别有一番风味。此外,模型还能识别角色国籍特征并模拟相应口音(如外国人说蹩脚普通话),甚至在双人对话场景中分别赋予不同角色恰当的表情与语气,进一步提升了叙事的真实感。

当然,GAGA-1 仍存在一些技术局限。对于大幅度肢体动作(如挥手擦泪)容易出现形变;日语发音较为诡异,其他小语种支持尚待验证;暂不支持自定义音频上传或固定音色ID,导致每次生成的声音特质略有浮动。不过据曹越老师透露,相关功能已在开发尾声,未来将逐步上线。至于大家最关心的价格问题——目前 GAGA-1 全面免费开放,官方承诺即便后续商业化,定价也将远低于 Sora2 和 Veo3,致力于打造高性价比的国产AI视频解决方案。

总体而言,GAGA-1 不仅是技术上的突破,更是创作民主化的重要一步。它为小说可视化、短剧制作、NPC动态交互等场景提供了低成本、高质量的新选择。尽管仍有优化空间,但其在人物表演维度所达到的高度,已足以让它跻身当前全球AI视频生成领域的第一梯队。作为一款由中国团队自主研发的模型,它的出现无疑令人振奋。现在正是抢先体验的好时机,快去 https://gaga.art 探索属于你的创意可能吧!

AI视频生成, GAGA-1模型, 音画同步, 国产AI模型, 角色表演

本文来源: 数字生命卡兹克公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...