超神经HyperAI · 2 天前

Qwen3-Max参数规模超万亿,多项基准测试达SOTA,预告推理增强版本达奥数竞赛满分水平

今天(9 月 24 日),一年一度的云栖大会正式开幕,这个阿里云秀肌肉的舞台上,AI 无疑是主角,从开源模型到 Agent 应用,再到服务器等基础设施以及开发者生态,其全面展示了在这一轮 AI 竞速赛中的技术竞争力。据 Hugging Face 榜单显示,基于通义千问二次开发的衍生模型数量已达到 17 万,超过美国 Llama 系列,稳居全球首位。

关注阿里的读者或许知道,就在云栖大会开幕前一天,阿里通义大模型团队便已经开源了三款高性能模型——原生全模态大模型 Qwen3-Omni、语音生成模型 Qwen3-TTS、图像编辑模型 Qwen-Image-Edit-2509 的更新,均在相应的领域内达到了媲美主流模型、甚至是 SOTA 级别的性能。

如今看来,这些实属开胃前菜,就在刚刚结束的云栖大会开幕式上,Qwen3-Max 正式亮相,这个号称是其迄今为止规模最大、能力最强的模型,以 1T 的模型总参数横扫多项评测基准。除此之外,此次会议还介绍了 Qwen3-VL、Qwen3-Coder 等模型。

Qwen3-Max:迄今规模最大、能力最强

Qwen3-Max 是本次发布当之无愧的重点,作为该团队迄今为止规模最大、能力最强的模型,Qwen3-Max-Instruct 的预览版在 LMArena 文本排行榜上位列第三,超越了 GPT-5-Chat。正式版本在代码能力和 Agent 能力方面进一步提升,在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到 SOTA 水平。 例如,在专注于解决现实编程挑战的基准测试 SWE-Bench Verified 上,Qwen3-Max-Instruct 取得了 69.6分 的优异成绩;在评估智能体工具调用能力的基准 Tau2-Bench 上,Qwen3-Max-Instruct 以 74.8 分超越 Claude Opus 4 与 DeepSeek-V3.1。

在这里插入图片描述

Qwen3-Max 在多个评测基准上的表现

具体而言,Qwen3-Max 模型总参数超过 1T,预训练使用了 36T tokens。 模型结构沿用了 Qwen3 系列的 MoE 模型结构设计,使用了 global-batch load balancing loss,令其预训练 loss 稳定平滑。训练过程一气呵成,没有任何 loss 尖刺,也没有使用训练回退、改变数据分布等调整策略。

据官方介绍,在 PAI-FlashMoE 的高效多级流水并行策略优化下,Qwen3-Max-Base 训练效率显著提升,其 MFU 相比 Qwen2.5-Max-Base 相对提升 30%。在长序列训练场景中,团队进一步使用 ChunkFlow 策略获得了相比序列并行方案提升 3 倍的吞吐收益,支持 Qwen3-Max 1M 长上下文的训练。同时,通过 SanityCheck、EasyCheckpoint、 调度链路优化等多种手段,Qwen3-Max 在超大规模集群上因硬件故障造成的时间损失下降为 Qwen2.5-Max 的五分之一。

值得一提的是,Qwen3-Max 的推理增强版本 Qwen3-Max-Thinking 虽未正式对外公布上线,但根据团队公布的数据显示,其深度推理能力已经达到新高,在极具挑战性的数学推理基准测试 AIME 25 和 HMMT 上均取得了满分,更是已经在奥林匹克数学比赛中达到了满分水平。

Qwen3-VL-235B:刷新 SOTA、位居全球第一梯队

Qwen3-VL 是 Qwen3 系列中的多模态视觉-语言模型(vision-language model, VLM)分支,旨在在视觉理解与文本生成能力之间取得平衡与突破,团队也将其称为迄今为止 Qwen 系列中最强大的视觉语言模型。无论是纯文本理解与生成,还是视觉内容的感知与推理;无论是上下文长度的支持能力,还是对空间关系、动态视频的理解深度;乃至在与 Agent 交互中的表现,Qwen3-VL 都展现出显著进步。

在这里插入图片描述

此次发布全新的开源旗舰模型 Qwen3-VL-235B 整体效果位于全球第一梯队,并且在高清复杂图像和细粒度识别场景效果明显提升,同时包含 Instruct 与 Thinking 两个版本。

在涵盖综合大学题目、数学与科学推理、逻辑谜题、通用视觉问答、主观体验与指令遵循、多语言文本识别与图表文档解析等 10 个维度的评估下,Qwen3-VL-235B-A22B-Instruct 在非推理类模型中多数指标表现最优, 显著超越了 Gemini 2.5 Pro 和 GPT-5 等闭源模型,同时刷新了开源多模态模型的最佳成绩,展现了其在复杂视觉任务中的强大泛化能力与综合性能。

具体而言,Qwen3-VL 在多个关键能力维度上做了系统性升级:

视觉智能体(Visual Agent): Qwen3-VL 能操作电脑和手机界面、识别 GUI 元素、理解按钮功能、调用工具、执行任务,在 OS World 等 benchmark 上达到世界顶尖水平,能通过调用工具有效提升在细粒度感知任务的表现。

纯文本能力媲美顶级语言模型: Qwen3-VL 在预训练早期即混合文本与视觉模态协同训练,文本能力持续强化,最终在纯文本任务上表现与 Qwen3-235B-A22B-2507 纯文本旗舰模型不相上下 —— 是真正「文本根基扎实、多模态全能」的新一代视觉语言模型。

视觉 Coding 能力大幅提升: 实现图像生成代码以及视频生成代码,例如看到设计图,代码生成 Draw.io/HTML/CSS/JS 代码,真正实现「所见即所得」的视觉编程。

空间感知能力大幅提升: 2D grounding 从绝对坐标变为相对坐标,支持判断物体方位、视角变化、遮挡关系,能实现 3D grounding,为复杂场景下的空间推理和具身场景打下基础。

长上下文支持和长视频理解: 全系列模型原生支持 256K token 的上下文长度,并可扩展至 100 万 token。这意味着,无论是几百页的技术文档、整本教材,还是长达两小时的视频,都能完整输入、全程记忆、精准检索,支持视频精确定位到秒级别时刻。

多模态思考能力显著增强: Thinking 模型重点优化了 STEM 与数学推理能力。面对专业学科问题,模型能捕捉细节、抽丝剥茧、分析因果、给出有逻辑、有依据的答案,在 MathVision、MMMU、MathVista 等权威评测中达到领先水平。

视觉感知与识别能力全面升级: 通过优化预训练数据的质量和广度,模型现在能识别更丰富的对象类别——从名人、动漫角色、商品、地标,到动植物等,覆盖日常生活与专业领域的「万物识别」需求。

OCR 支持更多语言及复杂场景:支持的中英外的语言从 10 种扩展到 32 种,覆盖更多国家和地区;在复杂光线、模糊、倾斜等实拍挑战性场景下表现更稳定;对生僻字、古籍字、专业术语的识别准确率也显著提升;超长文档理解和精细结构还原能力进一步提升。

Qwen3 Coder Plus:编程效率更高、更精准

作为 Qwen3 系列的编码专属模型,Qwen3 Coder 是对前代 Coder 的全面升级,采用闭源 API 形式,提供更高的编程效率和准确性,已成为全球最热门的编程模型之一,受到开发者的广泛喜爱。

本次发布的 Qwen3 Coder Plus 是阿里巴巴开源 Qwen3 Coder 480B A35B 的专有版本。 作为一个强大的编码代理模型,擅长通过工具调用和环境交互进行自主编程,将编码能力与多种通用能力相结合。

技术亮点:

  • 与 Qwen Code、Claude Code系统联合训练,CLI 应用上效果显著提升
  • 推理速度更快,同时执行任务效率更高* 代码安全性提升,向负责任的 AI 迈进

HyperAI超神经官网(hyper.ai)的教程版块目前已经上线了多个基于通义千问团队的高质量开源模型教程,体验一键部署教程链接:https://hyper.ai/tutorials

推荐阅读
关注数
678
内容数
339
链接人工智能新场景
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息