1895 年,卢米埃尔兄弟的无声电影《火车进站》曾让观众惊叹甚至惊慌失措 ;而直到 1927 年,当电影《爵士歌手》让演员的声音与嘴唇动作同步时,电影这项艺术才算真正「活」了过来 。

爵士歌手片段,1927 年
在人类的感知中,视觉提供空间结构与构图语境,听觉则传递着时间节奏、情感纹理与叙事的连贯性。如今的 AI 视频大模型领域,也正在经历一场从单模态视觉合成向音视频联合生成的决定性范式转变。
2026 年 2 月 27 日,昆仑天工正式发布多模态视频基础模型SkyReels-V4。该模型支持最高 1080p 分辨率、32 FPS 帧率、最长 15 秒的电影级画质输出,实现了音频与画面精准同步,并可全面覆盖从创意构思到精细修辑的一站式视频创作工作流。

根据独立分析机构 Artificial Analysis 最新公布的标准化测试结果,SkyReels-V4 在文本生成视频 T2V(含音频)的现役模型榜单中取得全球第 2的成绩,并在全球历史所有 T2V 模型总榜中位列第 4。成绩超过了 Veo 3.1、Sora 2、Vidu Q3 以及 Wan 2.6 等当前主流模型。
