HappyHorseHappyHorse Model
Model Guides1 分钟阅读April 2026

HappyHorse 1.0:横空出世的AI视频模型

2026年4月初,一个名为HappyHorse-1.0的模型以匿名身份出现在Artificial Analysis视频竞技场排行榜上。短短数小时内,它就在文本到视频(text-to-video)和图像到视频(image-to-video)两项排名中登顶,以竞技场历史上前所未见的巨大优势,碾压了此前占据主导地位的模型。

然而,几天后,它就从公开排行榜上彻底消失了。

排行榜数据显示了什么

Artificial Analysis运营着一个盲投竞技场:用户会看到来自相同提示词的两个视频,在不知道哪个模型生成它们的情况下选择更好的一个,这些投票会输入到一个Elo评分系统。这与国际象棋排名中使用的方法相同——没有自报的基准测试,也没有经过精心挑选的演示。

HappyHorse-1.0的峰值排名:

类别Elo分数排名与第二名的差距
文本到视频(无音频)1333#1领先Seedance 2.0 60分
图像到视频(无音频)1392#1领先Seedance 2.0 37分
文本到视频(带音频)1205#2落后Seedance 2.0 14分
图像到视频(带音频)1161#2落后Seedance 2.0 1分

在T2V类别中,60分的Elo差距意味着HappyHorse在与Seedance 2.0的盲测对决中,胜率约为58-59%。这并非偶然——它代表了人类投票者所感知到的显著质量差异。

声称的架构

本节所有内容均来自happyhorses.io和happyhorse-ai.com。所有信息均未经独立验证。

该网站描述了一个拥有150亿参数的40层单流自注意力Transformer。该设计完全消除了交叉注意力(cross-attention):

  • 前4层:模态特定投影(文本、图像、视频、音频)
  • 中间32层:所有模态共享参数
  • 最后4层:模态特定输出投影

文本token、参考图像潜在表示(latents)以及带噪声的视频/音频token在单个token序列中共同去噪。据报道,该模型仅需8个去噪步骤,且无需Classifier-Free Guidance——这与大多数竞争对手使用的20-50步扩散过程(diffusion processes)相比,是一个显著的突破。

多语言音视频生成

该网站声称原生支持六种语言:中文、英文、日文、韩文、德文和法文。一个辅助营销网站补充说,它还支持粤语作为第七种语言,并具有“超低WER唇形同步(lip-sync)”功能。

联合音视频生成意味着对话、环境音和拟音(Foley effects)与视频帧同步一次性生成——无需后期制作的配音流程。

尚未提供的内容

截至2026年4月8日:

  • 无权重可下载:GitHub和Model Hub链接均显示“即将推出(Coming Soon)”
  • 无公开API:无API端点,无文档化的定价,无SLA
  • 无论文:未发布任何技术报告
  • 无团队身份:Artificial Analysis在提交时使用了“匿名(pseudonymous)”一词

该网站声称“基础模型、蒸馏模型、超分辨率模型和推理代码——均已发布。”但这些链接与此说法相矛盾。

为什么它很重要

即使没有可访问的权重,HappyHorse-1.0也展示了三件事:

  1. 单流架构可以达到SOTA:消除交叉注意力(cross-attention)和多流(multi-stream)管道曾被认为是一种权衡。HappyHorse表明这可能是一种升级。

  2. 8步推理可实现顶级质量输出:这对大规模推理成本和吞吐量具有重大影响。

  3. 匿名发布有效:“先排名,后揭示”的策略——此前在Pony Alpha / GLM-5中也曾出现——正成为中国AI生态系统中的一种模式。

对于构建视频生成管道的团队来说,由于HappyHorse和Seedance 2.0均不提供公开API访问,实际可用的排行榜从第3位(SkyReels V4)开始。但如果HappyHorse发布权重,情况将在一夜之间改变。