HappyHorse 1.0:横空出世的AI视频模型
2026年4月初,一个名为HappyHorse-1.0的模型以匿名身份出现在Artificial Analysis视频竞技场排行榜上。短短数小时内,它就在文本到视频(text-to-video)和图像到视频(image-to-video)两项排名中登顶,以竞技场历史上前所未见的巨大优势,碾压了此前占据主导地位的模型。
然而,几天后,它就从公开排行榜上彻底消失了。
排行榜数据显示了什么
Artificial Analysis运营着一个盲投竞技场:用户会看到来自相同提示词的两个视频,在不知道哪个模型生成它们的情况下选择更好的一个,这些投票会输入到一个Elo评分系统。这与国际象棋排名中使用的方法相同——没有自报的基准测试,也没有经过精心挑选的演示。
HappyHorse-1.0的峰值排名:
| 类别 | Elo分数 | 排名 | 与第二名的差距 |
|---|---|---|---|
| 文本到视频(无音频) | 1333 | #1 | 领先Seedance 2.0 60分 |
| 图像到视频(无音频) | 1392 | #1 | 领先Seedance 2.0 37分 |
| 文本到视频(带音频) | 1205 | #2 | 落后Seedance 2.0 14分 |
| 图像到视频(带音频) | 1161 | #2 | 落后Seedance 2.0 1分 |
在T2V类别中,60分的Elo差距意味着HappyHorse在与Seedance 2.0的盲测对决中,胜率约为58-59%。这并非偶然——它代表了人类投票者所感知到的显著质量差异。
声称的架构
本节所有内容均来自happyhorses.io和happyhorse-ai.com。所有信息均未经独立验证。
该网站描述了一个拥有150亿参数的40层单流自注意力Transformer。该设计完全消除了交叉注意力(cross-attention):
- 前4层:模态特定投影(文本、图像、视频、音频)
- 中间32层:所有模态共享参数
- 最后4层:模态特定输出投影
文本token、参考图像潜在表示(latents)以及带噪声的视频/音频token在单个token序列中共同去噪。据报道,该模型仅需8个去噪步骤,且无需Classifier-Free Guidance——这与大多数竞争对手使用的20-50步扩散过程(diffusion processes)相比,是一个显著的突破。
多语言音视频生成
该网站声称原生支持六种语言:中文、英文、日文、韩文、德文和法文。一个辅助营销网站补充说,它还支持粤语作为第七种语言,并具有“超低WER唇形同步(lip-sync)”功能。
联合音视频生成意味着对话、环境音和拟音(Foley effects)与视频帧同步一次性生成——无需后期制作的配音流程。
尚未提供的内容
截至2026年4月8日:
- 无权重可下载:GitHub和Model Hub链接均显示“即将推出(Coming Soon)”
- 无公开API:无API端点,无文档化的定价,无SLA
- 无论文:未发布任何技术报告
- 无团队身份:Artificial Analysis在提交时使用了“匿名(pseudonymous)”一词
该网站声称“基础模型、蒸馏模型、超分辨率模型和推理代码——均已发布。”但这些链接与此说法相矛盾。
为什么它很重要
即使没有可访问的权重,HappyHorse-1.0也展示了三件事:
-
单流架构可以达到SOTA:消除交叉注意力(cross-attention)和多流(multi-stream)管道曾被认为是一种权衡。HappyHorse表明这可能是一种升级。
-
8步推理可实现顶级质量输出:这对大规模推理成本和吞吐量具有重大影响。
-
匿名发布有效:“先排名,后揭示”的策略——此前在Pony Alpha / GLM-5中也曾出现——正成为中国AI生态系统中的一种模式。
对于构建视频生成管道的团队来说,由于HappyHorse和Seedance 2.0均不提供公开API访问,实际可用的排行榜从第3位(SkyReels V4)开始。但如果HappyHorse发布权重,情况将在一夜之间改变。