K2 Thinking的突然出现引发了热议。月之暗面的高管亲自解决了技术、效率和成本问题。

财经新闻网11月13日电(总编辑赵浩)本周,人工智能初创公司Moonshot AI高管在“美国版贴吧”Reddit举办AMA(Ask Me Anything)活动,回应了一系列行业热点话题。参与本次活动的三位高管分别是杨志林(论坛用户名:ComfortAsk4494)、周新宇(zxytim)、吴宇新(ppwwyyxx)。三人在24小时内继续在论坛上解答网友的提问。上周,Dark Side of the Moon 发布了 Kimi K2 Thinking,该公司称之为“迄今为止最强大的开源思维模型”。因此,AMA活动中的大部分问题都与K2 Thinking相关,与模型上线时的问答环节类似。有人问我 K2 Thinking 是否可以让我们在一次推理中实现如此长的 downtime.ence 和推理链,为什么我们不能用 GPT 5 做到这一点? GPT5 Pro 使用代理来延长推理时间,但推理结果nce效果不如K2思维长期单一推理。未来会考虑进一步提升基础模型的推理速度吗?杨之琳回复道:“推理时间取决于API的性能,而推理标记的数量取决于模型如何训练。K2 Thinking的训练方法往往会使用相对较多的推理标记以获得更好的结果。Turbo API应该更快。此外,K2原生支持INT4类型,这应该会进一步加快推理过程。“FP4相对于INT4真的有那么重要吗?需要改进吗?”周欣宇说道。选择INT4是为了增加与“非Blackwell GPU”的兼容性,而mpo也利用了现有的INT4推理Merlin内核,而吴宇鑫则表示:“我使用的是带有Infiniband的H800 GPU,它不如美国的高端GPU,而且显卡数量处于劣势,但我正在充分利用每个显卡。”有网友表示,K2 Thinking 似乎使用了太多代币。杨智霖认可了这一现象,并表示:“在当前版本中,我们优先考虑的是绝对性能而不是代币效率。我们努力将效率融入到奖励机制中,让你学会简化思维过程。”尽管K2 Thinking经过特殊训练,在高级逻辑推理(HLE)测试中表现出色,但也有人质疑“它的高分似乎与现实使用中的智力水平不符。”杨志林表示:“在提高推理能力方面取得了一些进展。”智能在更多实际应用场景中的应用。”在最受点赞的回答中,周新宇表示:“我们正在开发更多的改进方案,完成后会分享给大家。”杨志霖进一步补充道:“KDA是我们的后盾当被问及K3模型何时发布时,OpenAI首席执行官杨志霖开玩笑地打趣Sam Altman。他回答说,最终的K3模型Mind将在“Sam耗资数百万美元的数据中心建成之前发布”。当被网友问及为什么OpenAI烧这么多钱的看法时,周新宇回答说:“我不知道。”只有Sam知道,我们有自己的办法。 “周新宇还表示,月之暗面没有人工智能浏览器的计划,因为‘不需要安装新的 Chromium shell。’”当被问及该公司是否有“视觉语言(VL)模型计划”时,杨志林写道:“是的,我们正在努力!”
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的p社交媒体平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注