HappyHorse 1.0：横空出世的AI视频模型

2026年4月初，一个名为HappyHorse-1.0的模型以匿名身份出现在Artificial Analysis视频竞技场排行榜上。短短数小时内，它就在文本到视频（text-to-video）和图像到视频（image-to-video）两项排名中登顶，以竞技场历史上前所未见的巨大优势，碾压了此前占据主导地位的模型。

然而，几天后，它就从公开排行榜上彻底消失了。

排行榜数据显示了什么

Artificial Analysis运营着一个盲投竞技场：用户会看到来自相同提示词的两个视频，在不知道哪个模型生成它们的情况下选择更好的一个，这些投票会输入到一个Elo评分系统。这与国际象棋排名中使用的方法相同——没有自报的基准测试，也没有经过精心挑选的演示。

HappyHorse-1.0的峰值排名：

类别	Elo分数	排名	与第二名的差距
文本到视频（无音频）	1333	#1	领先Seedance 2.0 60分
图像到视频（无音频）	1392	#1	领先Seedance 2.0 37分
文本到视频（带音频）	1205	#2	落后Seedance 2.0 14分
图像到视频（带音频）	1161	#2	落后Seedance 2.0 1分

在T2V类别中，60分的Elo差距意味着HappyHorse在与Seedance 2.0的盲测对决中，胜率约为58-59%。这并非偶然——它代表了人类投票者所感知到的显著质量差异。

声称的架构

本节所有内容均来自happyhorses.io和happyhorse-ai.com。所有信息均未经独立验证。

该网站描述了一个拥有150亿参数的40层单流自注意力Transformer。该设计完全消除了交叉注意力（cross-attention）：

前4层：模态特定投影（文本、图像、视频、音频）
中间32层：所有模态共享参数
最后4层：模态特定输出投影

文本token、参考图像潜在表示（latents）以及带噪声的视频/音频token在单个token序列中共同去噪。据报道，该模型仅需8个去噪步骤，且无需Classifier-Free Guidance——这与大多数竞争对手使用的20-50步扩散过程（diffusion processes）相比，是一个显著的突破。

多语言音视频生成

该网站声称原生支持六种语言：中文、英文、日文、韩文、德文和法文。一个辅助营销网站补充说，它还支持粤语作为第七种语言，并具有“超低WER唇形同步（lip-sync）”功能。

联合音视频生成意味着对话、环境音和拟音（Foley effects）与视频帧同步一次性生成——无需后期制作的配音流程。

尚未提供的内容

截至2026年4月8日：

无权重可下载：GitHub和Model Hub链接均显示“即将推出（Coming Soon）”
无公开API：无API端点，无文档化的定价，无SLA
无论文：未发布任何技术报告
无团队身份：Artificial Analysis在提交时使用了“匿名（pseudonymous）”一词

该网站声称“基础模型、蒸馏模型、超分辨率模型和推理代码——均已发布。”但这些链接与此说法相矛盾。

为什么它很重要

即使没有可访问的权重，HappyHorse-1.0也展示了三件事：

单流架构可以达到SOTA：消除交叉注意力（cross-attention）和多流（multi-stream）管道曾被认为是一种权衡。HappyHorse表明这可能是一种升级。
8步推理可实现顶级质量输出：这对大规模推理成本和吞吐量具有重大影响。
匿名发布有效：“先排名，后揭示”的策略——此前在Pony Alpha / GLM-5中也曾出现——正成为中国AI生态系统中的一种模式。

对于构建视频生成管道的团队来说，由于HappyHorse和Seedance 2.0均不提供公开API访问，实际可用的排行榜从第3位（SkyReels V4）开始。但如果HappyHorse发布权重，情况将在一夜之间改变。