开源 Transformer 视频模型:架构、许可和基准
视频生成领域正在经历一场架构变革。HappyHorse-1.0 以纯自注意力 Transformer(无扩散骨干,无交叉注意力)在 Artificial Analysis 上排名第一,验证了一种许多研究人员认为过于简单而无法达到有竞争力视频质量的方法。
架构分野
多流扩散(传统)
大多数成熟的视频模型采用多流架构,其中文本、视频和音频各自拥有专用的编码器分支。这些分支通过交叉注意力层进行交互,这增加了参数和推理步骤。
示例: Stable Video Diffusion, 早期 Kling 版本, Hunyuan Video
优点: 模块化,每个流可以独立优化 缺点: 参数冗余,推理路径更长,音视频对齐碎片化
单流 Transformer(新兴)
HappyHorse-1.0 代表了单流方法:所有模态——文本、视频、音频——都被标记化为一个单一序列,并通过共享的自注意力层进行处理。
声称规格: 总共40层,两端各有4个模态特定层,中间32个共享层
优点: 更高的参数效率,更短的推理路径,原生的音视频同步 缺点: 训练难度更大(所有模态必须联合学习),单一故障点
扩散 Transformer (DiT)
一种折衷方案:使用 Transformer 块作为扩散过程的骨干。Kling 3.0 和 FLUX 采用了这种方法。
优点: 将 Transformer 的可扩展性与成熟的扩散训练相结合 缺点: 仍然需要许多去噪步骤(通常20-50步)
推理效率比较
| 模型 | 步数 | CFG | 大致时间(5秒片段,1080p) |
|---|---|---|---|
| HappyHorse-1.0 | 8 | No | ~38s (H100, claimed) |
| Seedance 2.0 | ~30 | Yes | ~60s (estimated) |
| Kling 3.0 Pro | ~25 | Yes | ~45s (estimated) |
| WAN 2.6 | ~30 | Yes | ~90s (A100) |
| LTX 2.3 | ~20 | Yes | ~30s (consumer GPU) |
HappyHorse 声称的 8 步、无 CFG 推理令人瞩目。这可能意味着一致性蒸馏或修正流训练——这些技术将多步采样压缩为更少的直接预测步骤。
许可情况
| 模型 | 许可 | 商业用途 | 权重可用性 |
|---|---|---|---|
| HappyHorse-1.0 | Claimed open | Claimed yes | No (Coming Soon) |
| WAN 2.6 | Apache 2.0 | Yes | Yes |
| Hunyuan Video | Tencent License | Limited | Yes |
| LTX Video 2.3 | Apache 2.0 | Yes | Yes |
| Open-Sora | Apache 2.0 | Yes | Yes |
对于当前的生产部署,Apache 2.0 许可的模型(WAN 2.6, LTX 2.3)提供了最明确的法律途径。HappyHorse 的许可条款在权重实际发布之前无法评估。
HappyHorse 对该领域意味着什么
如果权重发布后这些说法成立:
- 对于高质量视频生成,交叉注意力可能不是必需的
- 在 SOTA 质量水平下,低于10步的推理是可实现的
- 单一模型中的联合音视频可以匹敌甚至超越独立管道
这些影响将改变下一代视频模型的设计方式。目前投资于复杂多流架构的团队可能需要重新考虑。
警告依然存在:所有这些都尚未验证。权重将揭示真相。