Kim K2 Thinking 的详细解释:感谢 DeepSeek。先杀掉GPT

作者 |周亦晓邮箱 | zhouyixiao@pingwest.com “这是DeepSeek风格的又一个闪光时刻吗?开源软件再次超越了闭源软件。” 2025 年 11 月 6 日 Hugging Face 联合创始人 Thomas Wolf 对 Kim K2 Thinking 的感受在多项基准测试中取得了优异的成绩,匹配甚至超越了 SOTA 的闭源模型。例如,在 HLE(人类最后的考试)文本子集基准上,其工具增强版本得分为 44.9%,高于 GPT-5 的 41.7%。 Kimi K2 Thinking 在 Kimi K2 模型上进行训练,专注于提高代理和推理技能。这是一个总共有 10 亿个参数的专家混合 (MoE) 模型。每个推理激活大约 320 亿个参数,支持 256k 上下文窗口并使用本机 INT4 量化技术。设计思想是找到控制计算和训练成本的方法,同时保持巨大的模型规模。据 CNBC 援引消息人士报道,训练该模型仅花费 460 万美元s。为了进行比较,DeepSeek 透露 V3 的培训成本(租赁价格、正式培训阶段)为 560 万美元,R1 为 294,000 美元。这里主要考虑的是GPU预训练的成本。这还不包括研发、基础设施等方面的投资。Kim K2 Thinking的主要功能是代理功能。官员们表示,他们可以连续调用该工具 200 到 300 次来解决复杂问题。虽然RL改进和长期规划工具的使用已在CE代码领域广泛采用,例如Grok-4,但开源模型这是第一次实现。这表明开源社区正在快速适应尖端代理技术,同时对模型托管服务的需求不断增加。 Kim K2 Thinking 尚未发布任何技术报告,仅发布技术博客和使用文档,并没有发布任何训练数据、RL 细节或菜谱。模型发布后不久发布后,技术社区开始兴起关于模型架构的讨论。比较 DeepSeek 模型的架构图又开始在 X 和 Reddit 上流传,引发了对其技术起源的争论。社区等待 DeepSeek 的 R2 已经很久了,因为它构建起来比较困难,而 Kimi 先生拿出了一个模型,在架构上有继承关系,同时也是一个推理模型 SOTA 开源。这让人怀疑他是否正在为 DeepSeek 发布 R2。 1 建筑的“传承”与工程的“魔力” Raschka 的 LLM 研究工程师 Sebastian 对此做了详细的分析,并指出了线程中两个具体的异同。 • 每个 MoE 层的专家数量增加约 1.5 倍(384 比 256) • 词汇量更大(160k 比 129k) • K2 每个令牌激活大约 320 亿个参数(DeepSeek R1 有 370 亿) • MoE 之前的密集 FFN 块较少。 K2 是 e本质上是 DeepSeek V3/R1 的略微修改版本,改进主要体现在训练数据和配方上。 ” 显然,Kimi K2 Thinking“继承”了 DeepSeek 的核心架构,包括 MoE 机制、MLA(Multiple Latent Attention)等设计。它是在经过测试的基础上,根据自己的目标进行微调和优化的。例如,减少注意力头的数量和激活参数,可以降低推理成本。目的是增加专家数量和词汇量,以强化模型的知识和表示能力。这个“站在“巨人”的做法是开源精神最直接的体现。Kimi K2 Thinking的工作除了继承DeepSeek架构之外,还离不开开源生态工作整体更广泛的“用”。从底层用于加速注意力计算的FlashAttend,到改进后的MuonClipK2白皮书中提到的优化器解决训练不稳定的问题,到各种数据处理和训练后的方法论,都集成了开源社区的集体智慧。如果说开源架构和技术定义了模型的骨架,那么月之暗面独特的工程实现能力则让它变得有血有肉。这主要体现在三个方面。 1、训练稳定性:在155亿代币的预训练过程中,Kimi K2 Thinking实现了“零损失峰值”。这意味着训练过程非常稳定,不需要因为模型失败而进行代价高昂的回滚。这是万亿参数规模模型的重大工程成就。 2.原生定量推理:Kim K2 Thinking支持原生INT4定量推理。据称,这可以将推理速度提高约 2 倍,同时将性能损失降至最低,并显着减少实施所需的 GPU 内存。蒂是大参数模型从实验室走向广泛应用的关键。 3.长期任务执行:模型可以稳定执行200-300轮工具调用。这不仅考验了模型的推理能力,也考验了系统的鲁棒性。由于交互跨越数百个步骤,模型必须能够处理各种异常,这需要复杂的工程机制。 Kimi团队在开源技术的选择和整合上做出的这些具体决策以及工程团队的最终执行能力,构成了Kimi K2 Thinking目前成功的关键。根据之前的结果。这种技术路径和成功范式让很多人想起了R1发布时的场景。它继承了 DeepSeek MLA+MoE 的高效架构和“可验证任务优先”的奖励/数据导向,并使用工程措施(例如 MuonClip、长上下文、工具链)来稳定功能。不同之处目前的情况是,foropen mind 和 K2 Thinking 的目标更侧重于应用程序交付。 1. 超越全面的 SOTA 审查 Kim K2 思维不能停留在基准分数上。这是基准分数的必然来源。科技博客 Kim K2 Thinking 展示的许多 SOTA 分数都是基于特殊的“Heavy”模式获得的。根据 Hugging Face 的官方描述,该模式最多并行运行 8 个推理,并通过反射聚合所有输出来生成最终结果。这种技术在学术界和模特比赛中很常见。在今年 7 月 9 日的 Grok 4 发布会上,xAI 宣布 Grok 4 Heavy 的 HLE 分数为 44.4%,纯文本子集分数为 50.7%。这种重度模式也带来了一些问题。首先,它消耗大量的资源。对于普通用户来说,通过 API 或本地实现来重现这种性能几乎是不可能的。所以与基准分数之间存在差距模型的单个实例的实际功能。用户实际能够体验到的标准模式与列表中的“野兽模式”有所不同。对效率的追求也体现在模型底层的工程决策中,而这些决策往往遵循性能与成本的权衡原则。例如,该模型使用本机 INT4 量化。官方Puff虽然声称性能损失很小,但从FP16到INT4的精度压缩是巨大的。尽管这种量化对于标准评估集可能效果很好,但有必要在更广泛的现实应用中测试精度损失在更长、更复杂的推理链上的累积效应是否会影响任务的最终成功率。同样,将注意力头的数量从 128 个减少到 64 个也是 Kimi 团队为减少内存带宽和计算开销而做出的一个激进的决定。不过,K2白皮书也承认更大的可见性通常可以提高模型质量。这意味着Kimi K2在模型的功能上做了一定的妥协,以提高推理效率。 Kimi K2 Thinking 对代理能力的承诺也在另一个方面造成了限制。根据官方基准测试,K2 Thinking 在“智能体推理”和“智能体搜索”两个指标上优于 OpenAI 和 Anthropic 的最佳模型(GPT-5 和 Sonnet 4.5 Thinking),但在“可编程性”方面尚未达到顶峰。在尖端模型采用多模态作为标准功能的时代,Kimi K2 Thinking 仍然是纯文本模型。当人工智能处理涉及视觉或空间推理的任务时,这种差异尤其显着。例如,在生成“自行车上的鹈鹕”的 SVG 图像之类的任务中,纯文本模型可能会出现一些问题,因为它缺乏对物理世界的基本视觉理解。 Kimi K2 Thinking Kimi K2 Thinking制作的SVG发布感觉又是开源AI社区的又一次集体狂欢。它建立在所有伟大的开源作品(如 DeepSeek)的基础上。一个新的开源,可以让你发现你今天最重要的性能目标,细化细节,提高训练效率,并在当今最重要的方向上超越最强大的闭源模型。我得到了模型。而这个模型为开源社区提供了反馈和启发,也是下一代更大模型的一块拼图。大而完整。也许下一个DeepSeek时刻已经不远了,而DeepSeek可能不需要产生它。 单击“爱”即可。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由N用户上传发布etEasehao,一个仅提供信息存储服务的社交媒体平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注