阿里巴巴模型用于加速研究。 1月26日晚,阿里巴巴正式上线钱文旗舰推理模型Qwen3-Max-Thinking,在权威评测中刷新了多项世界纪录。其性能可与GPT-5.2和Gemini 3 Pro相媲美,是迄今为止中国最强大、最接近国际顶级模型的大型AI模型。据了解,Qwen3-Max-Thinking是目前阿里巴巴最大、最强大的钱文推理模型,参数总数超过万亿(1T),预训练数据量高达36T代币。此前,Qwen3-Max-Thinking的预览版在日本率先在AIME 25和HMMT数值推理中获得25分的双满分,推理性能令人惊叹。基于此,阿里同益团队在训练后进行了广泛的学习强化训练,全面提升Qwen3-M正式版的性能斧头思维。在涵盖事实知识、复杂推理、指令跟随、人类偏好调整、智能体能力等19个公认的大规模模型基准测试中,Qianwen的旗舰推理模型打破了多项最佳性能(SOTA)记录,整体性能与GPT-5.2-Thinking-xhigh、Claude Opus相当。 4.5 和 Gemini 3 Pro。为了显着提高模型的推理能力,新的Qianwen模型采用了新的测试时间缩放机制,据称该机制提高了推理性能并且更加经济。目前业界在推理过程中普遍面临以下问题: 冗余推理变得效率低下,因为它只是增加了并行推理的次数,重复得出已知的结论。钱文采用了一种新的机制,以“经验提取”的形式对之前的推理结果进行细化,并在此基础上进行多轮的自我迭代,从而实现更高效的推理。在相同的上下文中进行推理计算,产生更智能的推理结果。据悉,您将获得。在这一推理技术创新的基础上,钱文的推理性能和效率得到了显着提升。例如,在工具支持的“最后的人体测试”HLE中,Qianwen得分为58.3,明显高于GPT-5.2-Thinking的45.5和Gemini 3 Pro的45.8,成为当前型号中得分最高的。在HLE测试中,倩文获得了58.3分,超越了GPT-5.2-Thinking。此外,针对下一代智能代理时代,Qwen3-Max-Thinking还显着提升了原生代理自主使用调用工具的能力。具体来说,统一团队在完成工具使用的初步调整后,对一系列多样化任务进行了基于规则和模型的基于奖励的联合强化学习训练,赋予了Qwen3-Max-Thinking结合实际情况更智能思考的能力。工具。这种自适应工具调用功能可以在 QwenChat 中充分体验,允许模型独立选择搜索和自定义记录。译码器等代理工具的三大关键功能,提供更易用、更智能、更流畅的专家级答案。同时,模型的错觉也显着减少,为解决真正复杂的任务奠定了基础。目前,开发者可以在QwenChat上免费测试Qwen3-Max-Thinking模型,企业可以通过阿里云白链获取新模型的API服务,普通用户也可以通过钱文PC和网页来测试模型。原来,钱文APP很快就会接入新机型,所有用户都可以免费体验最强大的钱文机型。采访及撰稿:南都N视频记者 林文琪
特别提示:以上内容(如有,包括图片、视频)由自媒体平台“网易”提供A由“帐户”用户上传和发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由提供存储服务的社交媒体平台网易号用户上传发布。仅供参考。