标签:视频生成模型

AI视频生成,2024年国产大模型视频生成应用加速发展

2024年的最后一个月,国产大模型在视频生成领域的应用突然加速。特别是视频生成模型的发展,如同密集射出子弹后的枪管,热度持续攀升。12月19日,快手旗下的可灵更新至1.6版本,相较于两周前高调推出的AI导演共创计划,这次升级显得较为低调。然而,选择在这个时间点进行升级似乎别有深意。 就在前一天,12月18日,字节跳动在火山原动力大会上首次对外发布了豆包视频生成大模型。会上,张楠首次以剪映掌门人的身份亮相,并简短介绍了今年5月推出的即梦——一款类似于可灵的视频生成工具。张楠将其定义为“想象力相机”,与抖音...

豆包电脑版集成视频生成模型,PixelDance助力创作者工具升级,部分用户已开始体验SEO优化新功能

近期,记者了解到,字节跳动旗下的视频生成模型 PixelDance 已在豆包电脑版正式启动内部测试,部分用户已经获得了体验权限。据内测页面显示,每位用户每天可以免费生成十段视频。 PixelDance 视频生成模型在9月底首次亮相,最初通过即梦AI和火山引擎向创作者和企业客户进行了小范围邀请测试。外界对这款模型的多镜头组合、运镜切换以及人物运动能力给予了高度评价。早期参与内测的创作者分享了他们的使用经验,指出当 PixelDance 生成10秒视频时,切换3到5次镜头的效果最为理想,能够确保场景和角色的一致性。 此外,通过...

字节跳动推出先进AI视频生成模型:多主体互动与高级审美带来前所未有的震撼体验

9月24日,字节跳动旗下的火山引擎在深圳举办了一场AI创新巡展,发布了两款视频生成大模型:PixelDance(简称P模型)和Seaweed(简称S模型)。这两款模型在审美和动态表现方面有了显著提升,并且解决了多主体互动和一致性的问题。 为了让大家更好地了解这两款模型的能力,我们进行了实际测试。首先展示的是一个10秒的视频片段:一位年轻女子微皱眉头,生气地戴上墨镜,此时男主角进入画面,紧紧抱住她。整个过程中,人物的表情变化自然流畅,没有出现任何虚化或崩坏的现象。另一段视频中,一只金毛小狗在草地上追逐泡泡,画...

智谱AI的国产Sora视频生成模型开源发布!CogVideoX-2B优化至18G,单张4090显卡即可运行

智东西8月6日报道,智谱AI发布了其视频生成模型CogVideoX-2B的开源版本,这一消息无疑为业界带来了振奋。该模型已在GitHub和Hugging Face平台上线,支持FP16精度下的高效运行,显著降低了硬件门槛——仅需配备18GB显存即可进行推理,而微调所需显存也不过40GB,这意味着单张4090或A6000显卡就能胜任相应任务。 核心特点 - 提示词限制:CogVideoX-2B支持最多226个token的提示词; - 输出规格:生成视频长度为6秒,帧率为8帧/秒,分辨率为720 * 480; - 未来规划:计划发布性能更优、参数量更大的版本。 性能表现 根据相关论...

黑森林实验室发布FLUX.1:由Stable Diffusion原团队打造,旨在成为领先的图像与视频生成模型

引言 随着技术的飞速发展,开源图像生成模型领域迎来了新的竞争者。黑森林实验室,由Stable Diffusion的核心团队创立,近日推出了其最新的图像生成模型FLUX.1,这款模型以其卓越的表现迅速引起了业界的关注。 模型亮点 FLUX.1提供了三种不同版本的模型:专业版、开发者版和快速版。这些模型在文字生成、复杂构图以及人手描绘方面表现出色。尤其值得一提的是,即便是快速版的FLUX.1[schnell]也能在保持高质量的同时实现快速生成,这使得它在同类模型中脱颖而出。 技术表现 在性能测试中,FLUX.1[pro]和FLUX.1[dev]两款...

Sora全球上线:Vidu视频生成模型打造动画风格的二次元世界 — 首发实测展示AI创作工具如何在30秒内制作出精彩大片

国产视频生成模型“Vidu”:打造独特动画风格与高效创作工具 国产视频生成模型“Vidu”由清华系初创企业生数科技推出,该模型专攻动画风格视频生成,具备快速生成、高质量渲染及多镜头切换等特色功能。Vidu支持4秒和8秒固定时长的高清视频输出,并能够根据文本描述精确还原场景细节,适用于二次元文化爱好者及动画创作者。 快速生成与细节呈现:Vidu的亮点 - 高速生成:仅需30秒即可完成4秒视频的渲染。 - 精准语义理解:即使面对长文本描述,也能准确捕捉并展现关键信息。 - 多镜头切换:单一文本提示即可实现不同视角的视...

Sora爆火 马斯克急了!特斯拉才拥有最好的视频生成技术

OpenAI新推出的视频生成模型Sora引起了广泛关注。这款模型只需简单的提示词,即可生成长达1分钟的高清视频,被视为视频生成领域的重大突破。尽管目前仅限少数人试用,OpenAI CEO Sam Altman已在推特上接受在线订单,让人们有机会体验Sora。然而,Sora的发布也让特斯拉CEO马斯克表达了看法,他在Twitter上与OpenAI互动,暗示对其转变成营利公司的不满。 马斯克指出,特斯拉具备出色的现实世界模拟和视频生成技术,这可能优于Sora。Sora是一个基于扩散模型的创新,能统一处理不同格式的视频和图像。它的技术包括OpenAI先前在D...

效果炸裂!OpenAI首个视频生成模型发布,1分钟流畅高清,网友:整个行业RIP

近日,奥特曼推出OpenAI的创新成果——视频生成模型Sora,这是继DALL·E 3后的又一力作,可生成长达1分钟的高清视频。Sora展现了强大的场景构建能力,如热闹的春节、雨后东京的光影效果,甚至能模拟好莱坞电影预告片的质感。模型能理解并执行复杂的指令,如群体动态和物理交互,如纸飞机在森林中的飞行。 然而,Sora尚存不足,如物理模拟精度和因果理解,有时会出现对象数量变化或空间细节混淆等问题。技术上,Sora基于扩散模型,采用Transformer架构,能处理不同格式的视觉数据,并利用DALL·E 3的重述提示词技术增强指令遵循...