今年最热门的两款全球AI产品非视频生成大模型Sora和音乐生成大模型Suno莫属。今年4月,Suno对周杰伦的经典歌曲《以父之名》和《夜曲》进行了改造,引发了音乐界的广泛关注。许多人认为,视频生成和音乐生成这两个领域将会孕育出新的爆款产品,谁能在这两条赛道上占据一席之地,谁就能成为AI行业的领头羊。
这两款AI产品的火热,迅速激发了国内各大互联网公司对这两条赛道的激烈竞争。阿里巴巴推出了通义万相AI视频服务,字节跳动发布了“PixelDance”,快手推出了视频大模型产品“可灵”,QQ音乐和网易云音乐也相继推出了AI创作功能。AI领域的领先企业如Minimax、生数科技、智谱AI等也纷纷加入这场竞争。
在这两条热门赛道上,字节跳动的表现尤为积极。9月24日,火山引擎在深圳举办的AI创新巡展上,字节跳动发布了豆包视频生成-PixelDance和豆包视频生成-Seaweed两款大模型,正式宣布进军AI视频生成领域。此外,字节跳动还在音乐生成赛道上推出了Seed-Music音乐生成模型,并在今年7月发布了全新版本的海绵音乐APP,主打“一键创作你的AI音乐”。至此,字节跳动在AI视频和AI音乐两条赛道上实现了全面布局。
字节跳动在AI领域的布局不仅仅是单一产品的推出,更是通过内部赛马机制不断试错和优化。豆包视频生成大模型基于DiT架构,通过高效的DiT融合计算单元,实现了视频在大动态与运镜中的自由切换,支持多种镜头语言能力。相比之下,之前的视频生成模型大多只能完成简单的指令,而豆包视频生成模型能够实现自然连贯的多拍动作与多主体复杂交互。例如,它可以实现不同人物之间的互动,确保人物样貌、服装细节甚至头饰在不同运镜下保持一致,接近实拍效果。
基于豆包视频生成大模型,字节跳动内部推出了两款具有AI视频生产能力的产品:豆包APP和即梦AI APP。这两款产品分别由豆包和剪映两个业务团队推进,形成了一场内部赛马。即梦的前身是Dreamina,最初只是一个文生图的创作工具。随着Sora的崛起,Dreamina开始研发视频生成能力,并在今年2月开启了对外测试。今年5月,Dreamina改名为即梦,宣布其AI作图和AI视频生成功能全量上线,并在抖音平台上进行了大量推广。字节跳动的音乐生成产品海绵音乐APP同样经历了从传统音乐编辑工具到AI音乐创作工具的转型。海绵音乐的前身是2022年2月推出的海绵乐队APP,最初是为了满足汽水音乐和抖音用户的需求。2022年底,随着国内AI浪潮的兴起,海绵乐队开始加入AI作曲能力,但初期的创作能力较为一般。2023年6月,海绵乐队推出了新版本,主打哼唱成曲和伴奏制作,尽管AI能力仍有待提升,但为后续的试错和更新积累了宝贵经验。随着豆包音乐生成模型的出现,海绵乐队终于具备了更强的竞争力,并在今年7月更名为海绵音乐,主攻AI音乐创作赛道。
目前,字节跳动的AI产品在这两条赛道上的发展并非孤立,而是相互竞争。豆包和即梦近期也开始推出音乐生成服务,逐步渗透到AI音乐赛道。这种内部竞争不仅促进了产品的不断优化,也提高了用户体验。
根据七麦数据,字节跳动的视频生成APP即梦自今年8月上线以来,在iOS端的摄影与录像(免费)榜单排名逐渐上升,两个月内稳定在前40名,安卓端近30天的日均下载量为22978次。借助抖音平台的推广,即梦的视频生成服务逐渐成为许多抖音创作者的首选。然而,即梦并不满足于此,今年8月,即梦开始探索AI短剧领域的创作,联合抖音和博纳影业AIGMS制作中心出品并制作了《三星堆:未来启示录》。此外,即梦还在抖音平台发起了“即梦AI迷你剧场”活动,支持AI短剧的创作。截至9月,豆包大模型的日均tokens使用量已经超过1.3万亿,其中即梦做出了重要贡献。在商业模式上,即梦推出了会员体系,包括79元单月、69元连续包月和659元包年的基础会员等不同订阅方式。基础会员每月可使用505个积分生成约2020张图片或168个AI视频。有分析人士认为,即梦的产品功能和商业模式主要聚焦于服务UGC(用户生成),未来与抖音生态的融合将是其发展的重点。
相比之下,字节跳动在音乐生成领域的表现相对平淡。七麦数据显示,海绵音乐虽然有广告投放,但在iOS端并未取得排名,近30天的日均下载量仅为15次。音乐行业人士李磊认为,尽管AI音乐非常热门,但高质量的AI音乐创作大多来自专业人士,普通用户使用AI音乐生成工具的门槛和学习成本较高,如果工具过于复杂或难以使用,将影响用户体验和接受度。此外,用户对AI音乐的接受度也需要时间来培养。字节跳动在多个领域都有业务布局,资源有限的情况下,公司需要在不同业务之间进行资源分配和权衡。AI音乐生成领域虽然具有巨大潜力,但在前期需要大量的研发投入和市场推广,相比更加成熟的AI视频,公司可能会优先投入更多资源。
AIGC(人工智能生成)是一个巨大的市场,量子位智库预计,2024年我国AIGC应用市场规模将达到200亿,2030年将达到万亿规模,五年(2024-2028年)的平均复合增长率超过30%。目前,国内在视频生成模型方面,快手和字节跳动具有明显优势,因为它们的业务与视频密切相关,能够迅速吸引新用户并提升用户体验。快手的视频生成AI产品可灵发展迅速,今年8月的官方数据显示,可灵累计生成视频数量超过1600万,不到2个月,已有超过360万用户,累计生成3700万个视频和超过一亿张图片。近日,快手副总裁张迪宣布,可灵AI将内测视频人脸模型功能,支持用户自助训练人脸模型,完成训练后可生成5秒至10秒的文生视频。
然而,AI视频生成的研发成本高且周期长。百度CEO李彦宏曾表示,百度不会开发类似Sora的视频生成模型,因为这类模型的投入周期太长,可能需要10年甚至20年才能看到业务收益,即使再火爆,百度也不会涉足。在AI音乐生成方面,字节跳动仍在努力追赶。近日,AI音乐创作平台Suno推出了一项创新功能——SunoScenes,允许用户通过上传照片和视频作为提示词,生成与之匹配的30秒音乐。此外,音乐数据的版权问题也是一个挑战,获取合法的音乐数据需要与版权方合作,这可能会增加成本和难度。同时,音乐数据的质量参差不齐,如何筛选和整理高质量的音乐数据用于模型训练也是一个重要问题。
本文来源: Tech星球公众号【阅读原文】