5天连更5次，可灵AI年末“狂飙式”升级

（由多段落组成）：

2025年12月初，国内AI视频生成领域的领军者——可灵AI掀起了一场“技术风暴”。在短短五天内连续发布五项重磅更新，以“狂飙式”节奏完成年末技术冲刺，不仅刷新了行业对生成式AI迭代速度的认知，更将AI创作的边界推向全新高度。这场密集升级背后，是可灵AI在多模态理解、音画协同与创作闭环上的全面突破。

此次最引人注目的创新之一，是全球首个统一多模态创作引擎“可灵O1”的正式亮相。该系统首次将图像生成、视频生成、参考生图、镜头延展、风格迁移、编辑等多种任务整合于同一AI底座之中，真正实现从灵感输入到成品输出的一站式创作流程。基于其独创的Multimodal Visual Language（MVL）交互架构，用户可通过文字、图片、视频片段等多模态提示，精准传达角色身份、动作表情、场景运镜等复杂创意，极大提升了AI生成的可控性与一致性。

尤其在解决长期困扰创作者的“主体一致性”难题上，可灵O1展现出领先优势。无论是通过首尾帧控制视频走向，还是对已有视频进行局部修改和风格重绘，都能在不切换模型的前提下高效完成。据内部测试数据显示，在“图片参考生成”任务中，可灵AI相较Google Veo 3.1的整体表现胜率高达247%；而在指令遵循能力上，对比Runway Aleph也达到230%的领先水平，显示出强大的语义理解与执行能力。

与此同时，可灵2.6模型带来的“音画同出”功能堪称里程碑式进化。过去AI生成视频往往需要“先做画面，再配声音”，流程割裂且耗时费力。而可灵2.6首次实现文本或图文输入后，单次生成即包含自然语音、动作音效与环境氛围音的完整视听，彻底重构了AI视频工作流。目前支持中英文语音生成，视频时长可达10秒，适用于旁白解说、角色对话、Rap说唱、背景音乐等多种音频类型，未来还将拓展更多语言选项与固定声线定制功能。

值得一提的是，这一能力已在全球创作者圈层引发热烈反响。AI电影导演Simon Meyer利用该技术制作的宣传短片，充分展现了音画同步的沉浸感与叙事张力。对于广大自媒体、广告、影视从业者而言，“音画同出”意味着生产效率的指数级提升，也为短视频、电商带货、数字人直播等高频应用场景提供了强有力的技术支撑。

除了核心模型升级，可灵AI还同步推出数字人2.0、主体库管理、对比模板等功能模块，进一步优化实际创作体验。其中数字人2.0允许用户上传角色图像并结合配音与行为描述，快速生成最高达5分钟的高表现力自定义数字人视频，广泛应用于品牌代言、教学讲解、虚拟主播等场景。

截至目前，可灵AI已服务超过2万家企业客户，覆盖影视制作、广告创意、游戏开发、电商平台、自媒体运营等多个领域。快手高级副总裁、可灵AI事业部负责人盖坤多次强调：“我们的目标是让每个人都能用AI讲好一个故事。”从年初的技术探索到年末的批量落地，可灵AI正一步步将这一愿景变为现实。

随着MVL架构的深化、多模态长上下文的理解增强以及物理世界声画语义对齐能力的提升，可灵AI不仅在国内市场持续领跑，也在国际舞台上赢得越来越多的认可。从“威尔·史密斯吃面”这类经典案例的广泛传播，到海外顶尖创作者主动背书，无不印证其技术实力与生态影响力的双重跃迁。可以预见，随着更多行业应用的深入融合，AI原生时代的大门正在加速开启。

可灵AI, 音画同出, 多模态AI, 数字人2.0, 视频生成大模型

本文来源：

量子位【阅读原文】

# 每日AI快讯 # 可灵 # 快手 # 视频生成

文章版权归作者所有，未经允许请勿转载。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

5天连更5次，可灵AI年末“狂飙式”升级

全球增长最快AI应用！公测仅23天千问月活跃用户数破3000万

Sora的AI TikTok梦迅速破产了

相关文章

暂无评论

AI最新资讯