近年来,视频生成技术,特别是基于扩散模型的视频生成技术发展非常迅速,并且在文本到视频(T2V)和图像到视频(I2V)等任务中不断前进。商业系统(Sora、Veo3、Kling、Vidu 等)已经能够制作与专业制作相媲美的视频内容,显着提高创意效率并降低成本。在此过程中,Subject to Video(S2V)生成任务开始受到关注。 S2V 的目标是在给定一张或多张参考图像的情况下生成具有一致的主体外观和可控背景的动态视频。该方法将文本生成的创造性与图像生成的精度相结合,适用于数字人物、虚拟测试、电商广告、艺术制作等场景。然而,开源 S2V 模型很难保持主题连贯性并实现多背景信息的有效分离。i-agent 场景。文章地址:https://arxiv.org/pdf/2510.18573 代码地址:https://github.com/CriliasMiller/Kaleido 为了应对这些挑战,来自合肥工业大学、清华大学、驰普大学的研究团队提出了一种开源多智能体参考视频生成框架:Kaleido。就前因的连贯性和解耦而言。图| Kaleido 的 S2V 生成涵盖了单人游戏和多人游戏场景中可控角色、物体和背景的生成。实验表明,Kaleido 在一致性、保真度和泛化能力方面优于以前的方法,代表了 S2V 生成领域的重大进步。图| S2V 评估(左图)和用户研究结果(右图)。研究框架现有的S2V方法在保持跨多个主题的一致性和处理后台解耦方面仍然存在缺陷。在多图像条件下,这通常会导致o 降低参考保真度和语义漂移。这可能是由几个因素造成的。 Training.ng数据不足且质量低:采样覆盖范围不足、低质量样本污染以及传统的“视频帧采集”方法。因此,模型倾向于逐字复制参考图像的内容,并且还保留不相关的背景,使得泛化变得困难。条件注入策略不充分:使用现有方法将多个参考图像的特征引入视频生成中往往会产生主体信息混叠和p冲突。空间振荡,导致多个主体无法正确合并或在生成的视频中丢失细节。在此基础上,研究团队提出了一种新的数据构建管道以及相应的条件注入方案。创新点主要体现在三点。 1. 多类型主题采样和详细过滤(尺寸、环境音)质量、亮度、类别一致性),实现多样化、高质量的数据构建过程。跨对数据生成简介:将主题的图像与不相关的视频组合会破坏背景信息并迫使模型学习主题和背景。场景分离。背景去除以及姿势和运动增强:使用图像恢复和姿势变化来改善主题表达。 2.参考旋转位置编码条件注入机制(R-RoPE)将多个参考图像编码的令牌与视频令牌序列相结合,但人为地偏移时空坐标,以允许模型区分“视频帧”和“参考图像”。避免多主题场景中的标记混淆,并在生成的视频中保持每个主题独立且一致。 3.用200万个数据集预训练两阶段训练策略,建立通用生成函数。监督f然后对 500,000 个高质量数据集进行微调 (SFT),以提高受试者一致性和背景分离度。结果及实验效果 Kaleido在多维度评价中表现出了优异的表现。主体一致性(S2V一致性):在测试集上达到0.723,为测试模型的最高水平。背景脱扣S2V方法):现有方法的得分为0.319,几乎消除了背景污染。视频美观度和流畅度:VBench框架中的美观度在开源模型中排名第一,视频运动的流畅度接近闭源Kling模型。主观评分:在我们的用户研究中,Kaleido 在视频质量、主题连贯性和背景解耦方面获得了最高的平均分。更具体地说,消融实验表明,使用交叉数据显着提高了背景解耦能力(+0.013 点)。 R-RoPE 最适合宽尺寸和高尺寸抵消,避免多主体场景中主体混乱。在各种场景中,包括卡通、动物和复杂人群,Kaleido 制作的视频都保持合理的数量,为您提供主题细节和动态动作。缺点和未来的方向虽然 Kaleido 在开源系统上运行良好,但它仍然有一些局限性。极端背景场景和多个主体过载:如果背景非常复杂或主体数量非常多,则可能会出现细节丢失和轻微的身份混乱。长视频的连贯性:当前模型还有改进的空间,以保持长视频的主题连续性。未来探索的方向包括: 研究更轻量级的多参考条件融合机制,以提高推理速度和可移植性。优化长视频生成的时间一致性。我们继续扩展我们的开源数据集,以便我们的模型涵盖更多风格和主题类型。将 S2V 扩展到 multitasking集成框架(视频编辑、虚拟测试、人物动画等)实现“集成视频生成”。如需转载,请直接在本文评论区留言。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。这个平台就是信息。它仅提供存储服务。
注:以上内容(包括照片和视频,如有)由仅提供数据存储服务的社交媒体平台网易号用户上传和发布。