Vidu 是由生数科技联合清华大学发布的视频大模型。
vidu 是中国首个长时长、高一致性、高动态性的视频大模型。它采用原创的 diffusion 与 transformer 融合的架构 u-vit,支持一键生成长达16秒、分辨率高达1080p 的高清视频内容。该模型不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。
vidu 的主要功能包括:
- 长时高清视频生成:可根据用户的文字描述生成长达16秒的高清视频。
- 高一致性多镜头切换:在生成视频时能在不同镜头之间保持高度一致性。
- 动态场景捕捉:能够捕捉和渲染包括复杂动作和物体运动在内的动态场景。
- 物理世界模拟:模拟真实世界的物理特性,如光影效果、物体的物理行为等。
- 创意想象力:基于文本描述或指令创造出具有想象力的场景和故事。
7月30日,vidu 宣布在全球范围内上线,向公众提供服务,其开放了文生视频、图生视频两大核心功能,提供4秒和8秒两种时长选择,分辨率最高达1080p。