无分类器引导的视频生成:如何以及为何
扩散研究的新浪潮正在带来一个非常实际的承诺:在视频生成中保持强大的提示控制,但在推理时停止依赖 CFG。如果你曾花费数小时调整 guidance scale,比较几乎相同的运行结果,或者试图在不同的种子和采样器设置下保持文本到视频管道的可复现性,那么这一点就至关重要。有趣的是,这不再仅仅是一个模糊的想法。我们现在有了具体的命名方法和论文,正在朝着这个方向推进。
迄今为止最清晰的信号来自 Visual Generation Without Guidance (arXiv:2501.15420),该论文由 Huayu Chen、Kai Jiang、Kaiwen Zheng、Jianfei Chen、Hang Su 和 Jun Zhu 于 2025 年 1 月 26 日提交,并于 2025 年 8 月 25 日修订。其核心主张大胆:Guidance-Free Training(GFT)“matches the performance of CFG”(与 CFG 的性能相匹配)。与此同时,第二条研究路线,Diffusion Models without Classifier-free Guidance,提出了 Model-guidance(MG),作为一种新的训练目标,旨在完全消除对标准 CFG 的依赖。
对于任何构建或调整视频系统的人来说,这改变了讨论的焦点。目标不仅仅是更漂亮的基准样本。它意味着更少的活动部件、更少的推理旋钮,以及当提示、种子和部署目标发生变化时,潜在更稳定的生成行为。如果你正在运行长篇文本到视频任务,测试一个 image to video open source model,或者试图在本地以可预测的输出运行 ai video model,那么这种转变正是值得早期关注的。
无 CFG 分类器引导的视频生成意味着什么

扩散模型中无分类器引导的快速定义
Classifier-free guidance,通常缩写为 CFG,是我们大多数人习惯于视为非可选的标准扩散技巧。在采样过程中,模型将条件行为(例如“生成一段红色汽车在日落时漂移的视频”)与无条件行为结合起来,然后使用 guidance scale 将结果推向提示。实际上,这个 scale 成为整个管道中最重要的控制之一,因为它改变了生成遵循文本条件的激进程度。
一个有用的心智模型很简单:较低的 guidance 倾向于保留更自然的变异,但可能会削弱提示的依从性;而较高的 guidance 通常会增强提示的遵循,但可能会损害真实感、多样性或运动平滑度。确切的最佳点取决于模型、采样器、提示风格,甚至分辨率或帧数。这就是为什么 guidance scale 常常成为生成设置中隐藏的脆弱性来源。
为什么引导采样成为图像和视频生成的标准
CFG 成为标准是因为它有效。研究笔记指出,classifier-free guidance 是最先进图像生成系统的核心,并且它自然地延续到视频中,因为相同的扩散逻辑适用。社区的解释通常将 CFG 描述为在采样过程中将条件路径和无条件路径与 CFG scale 结合起来。即使实现方式不同,这也捕捉了许多团队所面临的操作现实:guidance 增加了一层控制,但也增加了一层管理。
对于视频生成,提示依从性只是一半的故事。你还需要稳定的运动和帧间一致性。一个有助于某个片段准确匹配提示的设置,可能会导致另一个片段闪烁、过度承诺某些视觉标记,或随着时间推移风格漂移。这意味着 CFG 不仅仅是一个质量杠杆。它是一个操作变量,影响着不同提示集之间的可重复性、调试和批处理行为。
这就是无 CFG 分类器引导的视频生成变得有趣的地方。“无引导”并不意味着“无条件”。当前的研究方向是改变训练方式,使模型学习在推理时无需引导采样即可进行条件生成。你仍然提供文本、图像或其他控制。不同之处在于,模型应该在训练期间内化提示遵循行为,而不是在运行时需要单独的引导机制。
当你将标准 CFG 管道与无 CFG 管道进行比较时,请记住这个框架:你不仅在比较表面的视觉质量。你还在比较提示控制、样本多样性、时间稳定性、种子到种子行为以及工程简洁性。如果无 CFG 方法在保持依从性方面具有竞争力,同时消除了 guidance 调整,那么这在实际视频堆栈中可能是一个有意义的胜利。这意味着更少的特殊配置、更少的模型特定启发式方法,以及每次切换检查点、提示或部署硬件时,花费更少的时间重新发现相同的 guidance 最佳点。
为什么研究人员正在尝试无 CFG 分类器引导的视频生成

guidance scale 调整的实际限制
主要动机从研究笔记中看是直接的:CFG 是标准,但它引入了额外的采样和训练复杂性。任何已经发布或调整过视频生成的人都知道这在实践中意味着什么。Guidance scale 很少是一劳永逸的设置。当提示长度改变时,当你从短片段转向长片段时,或者当你在文本到视频和图像条件工作流之间切换时,它会成为另一个需要扫描、记录和重新审视的超参数。
这种复杂性在视频中被放大。在图像中,糟糕的 guidance 设置可能只会产生一个笨拙的输出。在视频中,同样的失配可能会在帧之间产生连锁反应,表现为不稳定的运动、不一致的对象身份或过度渲染的视觉细节,从而破坏时间连贯性。一旦你添加了负面提示、调度器差异和模型特定的条件怪癖,guidance 调整可能成为管道中隐藏变异的最大来源之一。
团队通过移除引导采样获得的收益
移除引导采样承诺带来几个具体的工作流收益。首先,它可以减少推理超参数。如果你的生成堆栈不再依赖于 CFG scale,那么每次运行就少了一个主要的控制需要管理和记录。这立即提高了可重复性,特别是当不同的操作员或脚本以略有不同的默认值启动任务时。
其次,它可以简化部署逻辑。研究笔记强调操作复杂性是基于 CFG 的系统的一个关键问题。如果无 CFG 方法避免了通常的引导采样设置,你可能会减少推理代码中的特殊分支,降低训练假设与服务行为之间不匹配的可能性,并使基准结果更容易复现。对于打包 open source ai video generation model 的团队来说,这种简化与原始速度一样重要,因为它减少了支持负担和配置混乱。
第三,视频管道通常更关心一致性,而不是一次性的最佳样本。如果一个主要的调整旋钮消失了,那么跨种子的可复现性、跨批请求的稳定提示响应以及研究与生产之间更清晰的交接都变得更容易。如果你在不同的 GPU 或环境中本地运行 ai video model,并希望在软件版本变化时输出保持接近,这一点尤其相关。
一个实用的比较清单在这里很有帮助。当你将 CFG 与无 CFG 系统进行测试时,仔细记录四件事:推理所需的正向传播次数、模型使用的条件路径、重复运行中的种子敏感性以及相邻提示之间的输出稳定性。如果一种方法减少了传播次数,保持了强大的提示遵循能力,并在固定种子下显示出较小的方差,那么它正在解决一个真正的工程问题,而不仅仅是发布一个漂亮的基准结果。这是对任何严肃评估无 cfg classifier free guidance 视频生成都值得使用的标准。
无 CFG 分类器引导的视频生成背后的研究方法

来自 Visual Generation Without Guidance 的 Guidance-Free Training (GFT)
目前该领域最强有力的命名方法是来自 Visual Generation Without Guidance (arXiv:2501.15420) 的 Guidance-Free Training(GFT)。该论文于 2025 年 1 月 26 日提交,2025 年 8 月 25 日修订,并列入计算机视觉与模式识别领域。作者是 Huayu Chen、Kai Jiang、Kaiwen Zheng、Jianfei Chen、Hang Su 和 Jun Zhu。该论文的关键主张是实践者应该牢记的:GFT “matches the performance of CFG”(与 CFG 的性能相匹配)。
这个主张很重要,因为它正确地框定了目标。GFT 并非被定位为一种廉价的妥协,让你为了简单而放弃提示控制。它被呈现为一种在保留人们与 CFG 相关联的优势的同时,消除在推理时应用引导采样的需求的方法。如果这在视频用例中成立,它将改变我们对默认扩散堆栈的看法。
从实现的角度来看,重要的信号是 GFT 是一种训练侧的改变。目标是生成一个模型,它自身就能很好地进行条件行为,以至于你不需要稍后通过 guidance scale 来恢复提示保真度。如果你正在评估是否采用它,首先要检查的不是营销图表,而是确切的训练目标以及模型内部如何处理条件。
来自 Diffusion Models without Classifier-free Guidance 的 Model-guidance (MG)
第二条研究路线,Model-guidance(MG),来自 Diffusion Models without Classifier-free Guidance。研究笔记将 MG 描述为一种新颖的训练目标,旨在解决广泛使用的 CFG 的局限性并消除对其的需求。这使其与 GFT 属于同一大类:不是 CFG 的更好调整配方,而是试图使标准 CFG 变得不必要。
GFT 和 MG 的共同模式很容易转化为实践者语言。两种方法都针对相同的瓶颈:条件生成质量目前严重依赖于采样时技巧。两者都试图将这一负担转移到训练中,从而使推理更清晰。换句话说,这些方法不是要求采样器通过额外的 guidance 机制来挽救提示依从性,而是试图让训练好的模型直接表达该条件信号。
对于将模型集成到视频管道中的人来说,实际问题很快变得具体。训练目标会改变吗?是的,这是两种方法的核心。条件行为会改变吗?这正是这些方法试图在内部改进的。推理过程会改变吗?是的,因为关键在于消除生成时对标准 CFG 的依赖。
这也意味着迁移不仅仅是交换一个检查点。你可能需要验证加载器、提示条件接口和评估脚本中的假设。如果你的当前堆栈内置了 CFG 默认值、围绕 guidance scaling 优化的提示模板或专门为稳定引导采样而选择的调度器设置,那么这些部分需要重新测试。好处是,如果 GFT 或 MG 兑现承诺,你将获得一个更清晰的推理路径,更少的旋钮和更少的特定提示损坏机会。
如何在实践中评估无 CFG 分类器引导的视频生成

比表面质量声明更重要的指标和观察结果
如果你想公正地解读这些方法,不要止步于精心挑选的片段或关于质量的宽泛声明。从真正决定视频模型是否可用的维度开始:提示依从性、真实感、运动一致性、时间稳定性、多样性和可复现性。这些是 CFG 传统上提供权衡的类别,因此必须针对所有这些类别检查无 CFG 方法。
提示依从性意味着模型在时间上始终遵循请求的主题、动作、设置、摄像机行为和风格,而不仅仅是在开头的几帧。真实感意味着对象结构、纹理和物理对于你的用例来说保持足够可信。运动一致性和时间稳定性是视频系统经常悄然失败的地方,因此要寻找帧闪烁、身份漂移、摄像机抖动和场景重置。多样性很重要,因为一种方法可能仅仅通过减少变异而显得“稳定”。可复现性很重要,因为生产管道需要输出在文档化设置下表现可预测。
研究笔记还指向一种更深入的评估习惯:不仅要测试最终输出质量,还要测试 CFG 传统上提供的权衡。NeurIPS 关于理解 CFG 的研究方向在这里很有用,因为它提醒我们基线本身仍在被解构。如果 CFG 通过增强条件行为的某些方面而削弱其他方面来提供帮助,那么替代方法应该根据它是否保持了正确的平衡,而不仅仅是匹配一个分数来判断。
针对你自己的管道的并行测试计划
一个清晰的评估设置简单但严格。使用相同的提示、相同的采样器预算、相同的种子范围和完全文档化的推理设置。保持分辨率、帧数、宽高比和条件输入固定。如果你在不同的计算预算或不同的提示格式下比较 CFG 基线和无 CFG 候选,结果不足以指导采用。
一个实用的测试矩阵应至少包括四个提示组:带有单一主体的直接提示、带有多个属性的组合提示、强调时间连贯性的运动密集型提示,以及在高 guidance 下经常触发过冲的风格敏感提示。对每个组运行足够大的种子套件以显示方差,而不仅仅是一两个幸运的例子。然后比较当你稍微扰动措辞时的输出稳定性,因为对小提示编辑的敏感性往往是隐藏脆弱性出现的地方。
还要跟踪一些工程变量。计算每个去噪步骤所需的正向传播次数。记录使用的条件路径。记录移除 CFG 是否降低了对超参数和种子变化的敏感性,因为这是无 CFG 方法背后最大的实际承诺之一。如果你的系统基于 open source transformer video model 或混合 diffusion-transformer 堆栈,即使它们是次要指标,也要在报告中包含吞吐量和内存使用情况。
这也是比较生态系统相关性的正确地方。如果你正在测试一个 image to video open source model,请注意在没有 CFG 的情况下图像条件是否保持稳定。如果你正在考虑本地部署,请记录更简单的推理路径是否使其更容易在受限硬件上本地运行 ai video model。如果你的堆栈依赖于可再分发权重,请将技术测试与许可证审查配对,特别是如果项目宣传自己是 open source ai model license commercial use 选项。只有当模型仍然符合你的操作和许可现实时,更简单的推理才有价值。
如何在实际工作流中采用无 CFG 分类器引导的视频生成

在切换生产或研究堆栈之前要问的问题
在切换之前,将其视为管道迁移,而不是采样器调整。从训练要求开始。该方法是否需要从头开始重新训练、针对特定目标进行微调或进行架构特定更改?GFT 和 MG 都被框定为训练目标转变,因此这是第一个关卡。如果你的组织只使用检查点而无法更改训练,那么你的采用路径取决于是否有强大的预训练无 CFG 模型可用。
接下来,检查架构假设。有些方法比其他方法更容易移植到不同的扩散骨干网络上,而视频模型通常在图像训练组件之上堆叠时间模块。你需要知道无 CFG 方法是否期望特定的条件接口、预测目标或去噪公式。如果你的推理代码假设 guidance scale 处处存在,那么在结果可比较之前,该代码路径将需要清理。
然后审查提示和条件接口。“无引导”并不意味着你的文本编码器、图像条件或控制信号保持不变。正确的问题是该方法是否在可接受的设置下保持了你所需的提示遵循性能,而没有隐藏的后备技巧。回答这个问题的最快方法是使用你自己的提示库进行基准测试,而不是公共的通用集。
无 CFG 方法可能最适合的场景
最容易早期适配的是那些手动控制过多的管道。如果操作员不断为每个检查点或内容类型重新调整 guidance scale,无 CFG 方法可以消除一个真正的摩擦源。对于优先考虑可复现性的堆栈也是如此。当跨种子和运行的稳定输出比追求单个最引人注目的样本更重要时,降低超参数敏感性是一个有意义的升级。
另一个强大的适配点是部署简化。如果你维护多个运行时,打包 open source ai video generation model,或支持本地推理,那么每移除一个旋钮和分支都有帮助。这对于围绕 open source transformer video model 工作流的项目尤其相关,在这些项目中,可移植性和可复现性与基准质量同等重要。还值得关注相邻的实验和发布,包括那些用 happyhorse 1.0 ai video generation model open source transformer 等长尾术语描述的东西,因为它们显示了实现者正在努力使高级视频系统更易于访问和运行。
对于迁移,在切换之前记录基准提示和种子套件。这一步可以节省很多后续的困惑。为你的 CFG 基线和候选无 CFG 方法使用相同的提示库,并保留一组固定的种子用于回归测试。这样,如果你获得了简单性但在某些类别上失去了细粒度的提示控制,你可以立即看到它,而不是在部署后才发现。
还要检查重复的正向传播是否减少,以及你的调度器设置是否可以简化。如果推理变得更清晰,而提示遵循仍在你的可接受范围内,那么这通常是无 CFG 方法首先发挥作用的地方。对于许多堆栈来说,胜利不会是“在所有地方都比 CFG 更好”。它将是“质量足够接近,操作明显更容易”。
无 CFG 分类器引导的视频生成下一步值得关注什么

关于 CFG 工作原理的开放研究问题
这个领域发展迅速的一个原因是,该领域仍在研究 CFG 本身背后的机制。关于理解 classifier-free guidance 的研究表明,CFG 对于强大的图像生成至关重要,但作为一个主题尚未完全穷尽。这意味着我们应该期待训练目标的快速迭代,而不是一夜之间出现一个最终的通用替代品。
对于实践者来说,主要含义是实际的:不要假设一种无 CFG 方法会立即主导所有模型家族。视频模型在架构、条件堆栈和训练数据方案方面差异很大。在一种扩散设置中成立的方法,在以 Transformer 为主的视频骨干网络或为长而连贯的片段调整的系统中,可能会表现不同。关键问题是无 CFG 方法是否能在这些家族中,而不仅仅是在狭窄的基准设置中,保持最佳的提示控制和质量权衡。
无 CFG 方法如何影响开源视频模型
这一趋势与开源实现尤其相关。如果无 CFG 方法确实降低了推理复杂性,那么它们对于任何维护 open source ai video generation model 的人、任何试图在本地运行 ai video model 的人以及任何在小团队环境中平衡可用性与性能的人都具有吸引力。更清晰的推理路径可以使模型更容易打包、文档化并在不同机器上复现。这并不能保证在所有情况下都更快或更便宜的部署,但它确实减少了一类操作摩擦。
还值得关注这些想法如何渗透到 open source transformer video model 项目和混合系统中,在这些系统中,扩散式生成仍然被使用,但架构正在演变。未来可能不是“旧 CFG 系统”和“新无 CFG 系统”之间的二元划分。我们最终可能会得到一些模型,它们在训练中吸收了一些 guidance 行为,同时仍然为边缘情况暴露更轻量级的控制机制。
对于开源项目,还有另一个实际问题:许可和可部署性。如果一个无 CFG 模型更容易运行,但以限制性条款发布,那么它可能仍然不如一个稍微复杂但具有可行的 open source ai model license commercial use 路径的模型有用。因此,除了技术设计之外,还要跟踪法律包装。
即将发表的论文中需要关注的信号清单非常明确。首先,在多种提示类型和视频任务上与 CFG 达到基准性能持平。其次,真正的推理简化,而不仅仅是将复杂性转移到更难看到的地方。第三,在提示、种子和条件模式下的鲁棒性。第四,在文档化设置下可衡量的可复现性增益。如果未来的发布能够同时展示这四点,那么无 cfg classifier free guidance 的视频生成将从一个有趣的研究方向转变为许多严肃视频堆栈的默认设计选择。
结论

在视频生成中放弃 CFG 的案例不再是假设。我们现在有了具体的研发方向——Visual Generation Without Guidance (arXiv:2501.15420) 中的 Guidance-Free Training 和 Diffusion Models without Classifier-free Guidance 中的 Model-guidance——它们明确地试图在保持条件质量的同时,消除在推理时对引导采样的依赖。迄今为止最值得注意的主张是 GFT 声明它 matches CFG performance,这正是使其值得测试而不仅仅是收藏的结果。
对于实际工作流来说,其吸引力显而易见:更少的推理旋钮、更简单的部署逻辑、更清晰的可复现性,以及潜在地对种子和特定提示调整的敏感性更低。这些好处在视频中尤其有意义,因为时间稳定性和可重复性每天都很重要,而不仅仅是在基准测试日。
现在明智的做法是,使用受控提示、固定种子套件和仔细记录的设置,根据你自己的 CFG 基线评估这些方法。如果无 CFG 设置在保持提示遵循、真实感和时间一致性的同时,使管道更容易操作,那么这是一个真正的升级。这就是为什么无 cfg classifier free guidance 的视频生成正在迅速成为任何构建、基准测试或部署现代视频模型的人的一个重要方向。