世界模型搭载基于开源的Emu3.5！赢得多式联运 SOTA 并超越 NanoBanana

奥飞斯量子比特云钟 |公众号QbitAI最新最强大的开源原生多模态世界模型：来自北京驰远人工智能研究院（BAAI）的Wijie/Emu3.5即将爆发。图像、文本和视频任务可在一处完成。您不仅能够绘制和修改图像，还能够生成图形和文本教程。视频作业增加了物理可信度。体验一句话擦除手写痕迹的高精度操作。第一人称视角行走动态3D世界：要知道，目前AI的迭代速度正在让大家有了新的认识。尤其是在 Vincent Video 领域，几乎每个月都会出现“引起问题”的新技术。一眼就能看出，每个AI视频都比上一个更真实、更长。然而，仍然没有必要急于鼓掌。成功的真正关键不再是他们是否相似，但是否互相理解。你知道当你从桌子上拿走一个苹果时，它应该是空的吗？你是否发现，转身之后，身后的风景依然存在？如果答案是否定的，那么无论视频有多真实，它都只是一个“高级 GIF”。渴望克服这一根本问题的游戏玩家终于有了维杰·Emu3.5。从官方公布的demo来看，Emu3.5制作的作品表现出了很强的一致性和逻辑性，尤其是成倍提升了AI模拟动态物理世界的能力。这使您可以进入从第一人称视角构建的虚拟世界。当您移动和转身时，它会动态构建您需要看到的下一个场景，从而保持整个空间的一致性。除了探索上面所示的 3D 游戏世界之外，您还可以以第一人称视角参观阳光下的客厅。在火星上驾驶卡丁车也非常简单。卡丁车掌握了世界上独特的规律，所以您不仅可以像专业设计师一样进行精确可控的图像编辑，还可以进行诸如拍摄电影之类的事情。这样，一个包含图像和文本的视觉故事就生成了。从评测结果来看，沃杰/Emu3.5的表现也非常亮眼。在许多著名的基准测试中，其性能等于甚至超过 Gemini-2.5-Flash-Image。是的，Nano Banana 在文本渲染和多模态交错生成任务中具有独特的优势。从Emu3.5的名字也可以看出它的定位。顾名思义，World Model Base是世界模型的基础模型，相当于在AI领域开辟了新天地。那么这个预期模型有多强大呢？让我们看更多案例。了解智能代理等长期核心能力：全球探索和具体操纵。这些是最能体现Emu3.5“基于世界模型”本质的主要特性。像代理商一样，他们可以理解随着时间的推移空间一致的序列，并模拟虚拟世界中的探索和操作。例如，以下任务“整理桌面”是使用以下步骤逐步完成的：首先，清除表格中的所有内容。解开并分类所有电缆。用扎带将电缆牢固地系紧。使用电缆管理通道将电缆隐藏在桌子下方。最后，摆好桌子。元素排列整齐。高级功能：视觉引导和复杂图像编辑 Emu3.5 掌握了动态世界的演变，使其特别擅长提供连贯性和引导性的视觉内容。如果你给 Emu3.5 一张狐狸的草图，以及一系列将其转换为 3D 模型、3D 打印并为其着色的指令，它将直接生成从草图到最终图形形状的完整逐步视觉过程。在整个过程中，狐狸的核心特征和行为都被完美地保留了下来，能够经受住考验。长期创作的挑战。该功能可以让你生成分步教学指南，逐步教授烹饪、绘画、种植蔬菜等。它有时支持多张照片和多种描述的复杂图像编辑，其主要一致性和风格维护功能在业内名列前茅。在白板上，Emu3.5本身是在大规模互联网视频上进行预训练的，因此它具有理解空间连续性-时间连续性的固有能力，允许您生成逻辑上一致的长期序列，而不会出现风格漂移或事实混乱。为了打造Emu3.5，致远再次做出了一系列创新和突破。这背后的技术原理是Emu3.5只有34B参数。整个模型基于标准的transformer-only解码器作为框架。单个模型可以同时完成多项任务，例如视觉讲故事、视觉引导、图像编辑、世界探索化和身体操纵。将所有任务组合成下一个状态预测任务。无论是文本还是图像，强大的多模式标记生成器都可以将它们转换为不同的标记序列。大规模视频数据预训练该模型在超过 100 亿个 token 的多模态数据上进行训练。主要是从网络视频转录的连续帧和文本。这使得模型能够从一开始就学习时空连续性和因果关系。强大的Tokenizer Visual Tokenizer（Tokenizer）基于IBQ框架，拥有13万个视觉词汇量，并集成广播解码器，可实现分辨率高达2K的高保真图像重建。多步调优预训练后，模型经过广泛的监督调优（SFT）和广泛的多模态强化学习（RL），并使用复杂的奖励系统进行优化，其中包括一般指标（例如，美观、图像和文本对齐）和特定于任务的指标小说指标（例如故事一致性、文本表达准确性）。黑色推理加速技术为了解决自回归模型图像生成速度慢的问题，团队将逐个令牌的生成方法改为并行双向预测。提出了一种技术离散扩散适应（DiDA）ogy，可以在不牺牲性能的情况下将每个图像的推理速度提高大约20倍。 Wisdom Select 是一个与 One More Thing 一样强大的模型，它允许世界各地的开源开发人员和研究人员直接跳转到理解物理和逻辑的世界模型，而无需从头开始。从生成更真实的视频到创建更智能的代理和为数千个行业提供动力的实际应用程序……有很大的想象空间。对了，如果你想体验科研内测版，可以点击以下链接申请~体验链接：https://jwolpxeehx.feishu.cn/share/base/form/shrcn0dzwo2ZkN2Q0dveDBSfR3b 项目主页：https://zh.emu.world/pages/web/landingPage 技术报告：https://zh.emu.world/Emu35_tech_report.pdf -完-
特别说明：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注：以上内容（包括图片和视频，如有）由网易号用户上传发布，网易号是一个仅提供信息存储服务的社交媒体平台。

归档

分类

世界模型搭载基于开源的Emu3.5！赢得多式联运 SOTA 并超越 NanoBanana

由 admin

发表回复取消回复

您错过了

百度的新故事：人工智能收入增长、昆仑核心分拆、股票回购和股息支付

消息称苹果 M5 Pro/Max 版本的 MacBook Pro 将于下周推出

黄仁勋表示，英伟达的业绩战胜了人工智能担忧：上季度收入增长超过 70%。基于代理的人工智能已经达到了拐点，客户正在增加对计算能力的投资。

NVIDIA 推出新一代人工智能系统，每瓦性能提高 10 倍 Vera Rubin

世界模型搭载基于开源的Emu3.5！赢得多式联运 SOTA 并超越 NanoBanana

由 admin

相关文章

消息称苹果 M5 Pro/Max 版本的 MacBook Pro 将于下周推出

NVIDIA 推出新一代人工智能系统，每瓦性能提高 10 倍 Vera Rubin

打破Pro系列“微妙色彩”的传统，iPhone 18 Pro预计将采用全新的红色配色。

发表回复 取消回复

您错过了

百度的新故事：人工智能收入增长、昆仑核心分拆、股票回购和股息支付

消息称苹果 M5 Pro/Max 版本的 MacBook Pro 将于下周推出

黄仁勋表示，英伟达的业绩战胜了人工智能担忧：上季度收入增长超过 70%。基于代理的人工智能已经达到了拐点，客户正在增加对计算能力的投资。

NVIDIA 推出新一代人工智能系统，每瓦性能提高 10 倍 Vera Rubin

发表回复取消回复