标签：视频生成模型

谷歌 Veo 3.1 视频生成模型发布：新增音频支持、对象添加等功能

（由多段落组成）：谷歌在10月16日宣布推出其最新视频生成模型Veo 3.1，标志着其在AI视频创作领域的又一次重要突破。此次升级不仅优化了音频生成能力，还在图像转视频、对象插入与风格融合等细节控制方面实现了显著提升。该模型基于今年5月发布的Veo 3进一步迭代，在真实感和提示词理解准确度上表现更出色，能够更精准地响应用户的创意指令。据IT之家报道，新版本的一大亮点是支持为生成的视频自动添加高质量音效与背景音频，使更具沉浸感和观赏性。此前Veo 3已具备多种高级编辑功能，例如通过参考图定义角色形象、利用...

来源：

IT之家【阅读原文】
Tags：Flow Veo 3.1 视频生成模型谷歌

10个月前

Magi-1的视频生成模型引起了广泛关注

Magi-1由sand.ai团队开发，其背后团队实力雄厚，创始人曹越和张拯曾在微软亚洲研究院共事，并参与了Swin Transformer的研究项目。此外，曹越还是光年之外的联合创始人之一。在这样的技术支持下，成立仅一年多的sand.ai推出了这款创新的视频生成模型。 Magi-1的独特之处在于它能够实现无限时长的视频续写，而市面上大多数视频生成模型的极限通常只有几十秒。更值得一提的是，Magi-1还可以精细控制每秒生成的，同时支持一次性生成多达16个1至10秒的视频片段。为了推动技术发展，sand.ai在4月21日开源了Magi-1，并提供了产品de...

来源：

iFeng科技【阅读原文】
Tags：Magi-1 sand.ai 开源自回归模型视频生成模型

1年前 (2025)

马斯克旗下xAI收购视频生成模型初创公司Hotshot，仅4人团队13个月打造类Sora的强大AI工具，引领未来内容创作潮流

（由多段落组成）马斯克在视频生成领域迈出了重要一步，xAI团队收购了一家专注于视频生成的初创公司。这家仅有4人的团队，在短短13个月内成功开发出类似于Sora的模型，并推出了名为Hotshot的产品。这一举动引发了广泛关注。根据官方公告，Hotshot已经开发了三款基础视频生成模型。然而，在被收购后，Hotshot停止了新功能的发布，并设定了用户下载过往创作视频的截止日期为3月30日。这引起了网友们的热议，许多人回想起马斯克在今年初的一次直播中提到的计划：几个月内推出Grok视频模型。随着Hotshot联创兼CEO宣布这一...

来源：

量子位【阅读原文】
Tags：Hotshot Sora xAI 视频生成模型马斯克

1年前 (2025)

Elon Musk引领xAI收购Hotshot，聚焦视频生成模型与AI技术未来发展

随着人工智能技术的迅猛发展，越来越多的企业开始涉足AI视频生成领域。近日，埃隆·马斯克旗下的xAI公司宣布收购了一家专注于开发AI视频生成工具的初创企业——Hotshot。这一消息迅速引起了业界广泛关注。根据科技博客TechCrunch的报道，此次收购标志着xAI在视频生成领域的进一步布局。Hotshot由阿卡什·萨斯蒂（Aakash Sastry）和约翰·穆兰（John Mullan）创立，总部位于旧金山。在过去两年中，Hotshot团队成功开发了三个重要的视频基础模型：Hotshot-XL、Hotshot Act One以及Hotshot。这些模型的技术水平与OpenAI的Sora视频...

来源：

iFeng科技【阅读原文】
Tags：AI技术 Elon Musk Hotshot xAI 视频生成模型

1年前 (2025)

紧跟DeepSeek步伐，阶跃星辰重磅开源两款国产多模态大模型——视频生成模型与语音交互模型引领AI技术创新浪潮

国内 AI 创企阶跃星辰联合吉利汽车发布两款多模态开源大模型，性能全球领先本周二，国内人工智能创业公司阶跃星辰与吉利汽车集团联合宣布，开源发布了两款多模态大模型：视频生成模型 Step-Video-T2V 和语音交互模型 Step-Audio。根据官方测评报告，Step-Video-T2V 是目前参数量最大、性能最好的开源视频生成模型。 Step-Video-T2V 模型部署及技术报告链接： - GitHub： [https：//github.com/stepfun-ai/Step-Video-T2V](https：//github.com/stepfun-ai/Step-Video-T2V) - Hugging Face： [https：//huggingface.co/ste...

来源：

机器之心【阅读原文】
Tags：- AI 技术创新 - 开源多模态大模型 - 语音交互模型视频生成模型阶跃星辰

1年前 (2025)

AI视频生成,2024年国产大模型视频生成应用加速发展

2024年的最后一个月，国产大模型在视频生成领域的应用突然加速。特别是视频生成模型的发展，如同密集射出子弹后的枪管，热度持续攀升。12月19日，快手旗下的可灵更新至1.6版本，相较于两周前高调推出的AI导演共创计划，这次升级显得较为低调。然而，选择在这个时间点进行升级似乎别有深意。就在前一天，12月18日，字节跳动在火山原动力大会上首次对外发布了豆包视频生成大模型。会上，张楠首次以剪映掌门人的身份亮相，并简短介绍了今年5月推出的即梦——一款类似于可灵的视频生成工具。张楠将其定义为“想象力相机”，与抖音...

来源：

新莓daybreak公众号【阅读原文】
Tags：AI视频生成即梦可灵大模型应用视频生成模型

2年前 (2024)

豆包电脑版集成视频生成模型，PixelDance助力创作者工具升级，部分用户已开始体验SEO优化新功能

近期，记者了解到，字节跳动旗下的视频生成模型 PixelDance 已在豆包电脑版正式启动内部测试，部分用户已经获得了体验权限。据内测页面显示，每位用户每天可以免费生成十段视频。 PixelDance 视频生成模型在9月底首次亮相，最初通过即梦AI和火山引擎向创作者和企业客户进行了小范围邀请测试。外界对这款模型的多镜头组合、运镜切换以及人物运动能力给予了高度评价。早期参与内测的创作者分享了他们的使用经验，指出当 PixelDance 生成10秒视频时，切换3到5次镜头的效果最为理想，能够确保场景和角色的一致性。此外，通过...

来源：

机器之心【阅读原文】
Tags：PixelDance SEO优化创作者工具视频生成模型豆包电脑版

2年前 (2024)

字节跳动推出先进AI视频生成模型：多主体互动与高级审美带来前所未有的震撼体验

9月24日，字节跳动旗下的火山引擎在深圳举办了一场AI创新巡展，发布了两款视频生成大模型：PixelDance（简称P模型）和Seaweed（简称S模型）。这两款模型在审美和动态表现方面有了显著提升，并且解决了多主体互动和一致性的问题。为了让大家更好地了解这两款模型的能力，我们进行了实际测试。首先展示的是一个10秒的视频片段：一位年轻女子微皱眉头，生气地戴上墨镜，此时男主角进入画面，紧紧抱住她。整个过程中，人物的表情变化自然流畅，没有出现任何虚化或崩坏的现象。另一段视频中，一只金毛小狗在草地上追逐泡泡，画...

来源：

机器之心【阅读原文】
Tags：AI 多主体互动字节跳动视频生成模型高级审美

2年前 (2024)

智谱AI的国产Sora视频生成模型开源发布！CogVideoX-2B优化至18G，单张4090显卡即可运行

智东西8月6日报道，智谱AI发布了其视频生成模型CogVideoX-2B的开源版本，这一消息无疑为业界带来了振奋。该模型已在GitHub和Hugging Face平台上线，支持FP16精度下的高效运行，显著降低了硬件门槛——仅需配备18GB显存即可进行推理，而微调所需显存也不过40GB，这意味着单张4090或A6000显卡就能胜任相应任务。核心特点 - 提示词限制：CogVideoX-2B支持最多226个token的提示词； - 输出规格：生成视频长度为6秒，帧率为8帧/秒，分辨率为720 * 480； - 未来规划：计划发布性能更优、参数量更大的版本。性能表现根据相关论...

来源：

智东西【阅读原文】
Tags：CogVideoX-2B 开源智谱AI 机器学习视频生成模型

2年前 (2024)

黑森林实验室发布FLUX.1：由Stable Diffusion原团队打造，旨在成为领先的图像与视频生成模型

引言随着技术的飞速发展，开源图像生成模型领域迎来了新的竞争者。黑森林实验室，由Stable Diffusion的核心团队创立，近日推出了其最新的图像生成模型FLUX.1，这款模型以其卓越的表现迅速引起了业界的关注。模型亮点 FLUX.1提供了三种不同版本的模型：专业版、开发者版和快速版。这些模型在文字生成、复杂构图以及人手描绘方面表现出色。尤其值得一提的是，即便是快速版的FLUX.1[schnell]也能在保持高质量的同时实现快速生成，这使得它在同类模型中脱颖而出。技术表现在性能测试中，FLUX.1[pro]和FLUX.1[dev]两款...

来源：

智东西【阅读原文】
Tags：FLUX.1 Stable Diffusion 图像生成视频生成模型黑森林实验室

2年前 (2024)