Qwen 3.7 预览版空降!阿里大模型迭代再提速,文本视觉双领域国产第一
阿里通义千问团队悄无声息地上线了 Qwen3.7-Max-Preview 和 Qwen3.7-Plus-Preview,在 Arena 全球榜单中文本第 13、视觉第 16,双双拿下国产第一。仅开放思考模式,主打极致推理与深度计算,正式版将在阿里云峰会发布。
一、Qwen 3.7 预览版突然上线
2026 年 5 月 19 日早间,全球大模型性能评测平台 Arena AI 的实时榜单突然更新两个全新测试条目:阿里通义千问旗下的 Qwen3.7 两款旗舰预览版直接冲入上游梯队,上线仅 2 小时就收获了超过 3000 次用户盲测投票,在推理类问题上的正确率远超同梯队其他模型,很快引发了全球大模型从业者的关注。
这次发布极其低调——没有预热、没有发布会,直接在 Arena 上悄然上线。Qwen 官号随后放话:"迫不及待想发布 Qwen3.7 系列了!"
但不少网友发现了一个尴尬的事实:4 月底才发布的 Qwen3.6-Max-Preview 还处于预览版状态,Qwen3.7-Max 预览版就已经端上桌了。一时间不知道是正式版放出的节奏比较缓慢,还是版本迭代的速度太快?
二、双版本并行策略:Max 与 Plus
此次上线的两款预览版定位明确,采用"双版本并行"策略,覆盖不同层级需求:
Qwen3.7-Max-Preview:旗舰级"大脑"
定位: 极致复杂推理与编程能力,综合性能天花板
核心特性:
- 旗舰级复杂推理:在 SWE-bench Pro、Terminal-Bench 等主流编程基准上表现领先,支持高难度软件工程任务与多步骤逻辑推理
- 世界知识覆盖增强:精准理解并执行复杂指令,降低知识幻觉与误执行风险
- 原生多模态理解:支持文本、图像、视频输入,视觉推理能力跻身全球前五
- 超长上下文处理:支持 256K Token 上下文窗口,可完成代码库级分析与长文档深度理解
- 混合推理模式:支持思考模式与非思考模式无缝切换,灵活匹配不同任务复杂度
Qwen3.7-Plus-Preview:均衡型选择
定位: 百万级长上下文与 Agentic Coding 的均衡体验
核心特性:
- 百万 Token 原生上下文:可一次性处理整个代码仓库或超长篇文档,实现端到端的长文本推理与信息提取
- Agentic Coding 自主编程:在复杂工程环境中自主规划、执行与优化开发任务,支持多轮交互式代码生成与调试
- 效果与成本均衡:更低推理成本实现接近 Max 版的综合性能,适合高频调用与企业级生产部署场景
- 多模态原生推理:支持文本、图像、视频混合输入,实现跨模态信息融合与结构化输出
- 企业级 Agentic AI 优化:与阿里云百炼生态深度集成,提供稳定可靠的商用接入体验
三、Arena 榜单成绩详解
文本领域:全球第 13,国产第一
Qwen3.7-Max-Preview 在 Arena 文本领域综合排名 第 13 位,是全球前十五中唯一的中国模型。
排名在它前面的分别是 Claude Opus4.6/4.7 系列、Gemini-3.1/3 Pro 系列、GPT-5.4/5.4-High 等国际顶级模型。
在细分领域,Qwen3.7-Max-Preview 更是展现出强劲实力,以下赛道均跻身全球前十:
| 细分领域 | 排名 |
|---|---|
| 数学 | 第 7 |
| 专家提示 | 第 9 |
| 软件/IT | 第 9 |
| Coding | 第 10 |
这一成绩直接推动通义千问实验室排名冲入 全球前六,是当前中文大模型厂商在纯推理基准上拿到的最好成绩之一。
视觉领域:全球第 16,国产第一
Qwen3.7-Plus-Preview 在视觉领域排名 第 16 位,推动阿里实验室排名升至 全球第 5。同样是排行榜上国产排名第一的模型。
专家竞技场
在专门针对高难度复杂指令的"专家竞技场"细分赛道中,Qwen3.7-Max-Preview 稳稳占据 全球第 9 的位置。该榜单上还有一个中国模型——小米的 Mimo v2.5 Pro,位列第 7。
四、仅开放思考模式:纯粹推理能力展示
和此前通义千问发布的所有版本不同,此次上线的两款预览版 仅支持"思考模式",暂时屏蔽了网页搜索、代码解释器等所有外围辅助工具,用户只能调用模型的原生能力解决问题。
这一设置的意图非常明确:
- 最大化还原大模型本身的逻辑推理与深度计算能力
- 避免工具加成干扰性能评测结果
- 定向针对高难度数理推演、多步逻辑问题、复杂专业任务求解等场景
换言之,这不是一个"全能助手"的展示,而是对模型"大脑"本身实力的纯粹检验。
五、技术原理深度解析
MoE 混合专家架构
Qwen3.7 继续基于混合专家模型(Mixture of Experts)架构,以较少激活参数实现高密度模型性能,在同等算力下获得更强推理能力。这也是 Qwen3 系列以来的标志性技术路线。
大规模强化学习优化
训练阶段通过自动扩展测试样例提升代码执行成功率,强化模型在编程与复杂任务中的可靠性。不同于传统的 SFT(监督微调),强化学习让模型在实际任务执行中不断自我优化。
长时序强化学习(Long-Horizon RL)
鼓励模型通过多轮交互解决复杂任务,支持持续学习与策略优化,提升 Agent 自主决策能力。这一技术是 Qwen3.7 在 Agentic Coding 方面表现突出的关键支撑。
思考预算控制机制
支持动态调整推理深度,用户可根据任务需求配置思考 Token 预算,平衡响应质量与速度。简单问题用少预算快速回答,复杂问题投入更多预算深度推理。
保留思维链(Preserve Thinking)
在 Agent 任务中保留完整推理过程,确保多轮交互的连续性与可追溯性,便于调试与审计。这对于生产环境部署至关重要——你不仅能看到结果,还能看到模型"怎么想的"。
六、竞品对比:Qwen3.7 vs GPT-5.5 vs DeepSeek V4
| 对比维度 | Qwen3.7 Preview | GPT-5.5 | DeepSeek V4 |
|---|---|---|---|
| 模型定位 | 双版本并行(Max/Plus) | 综合能力最强 | 长上下文性价比之选 |
| Arena 排名 | 文本第 6、视觉第 5 | 文本/视觉头部领先 | 未进入前五 |
| 编程能力 | SWE-bench Pro 国产领先 | 综合编程能力强 | 代码生成与数学推理优秀 |
| 上下文长度 | Max 256K / Plus 1M | 标准上下文 | 128K Token(可扩展) |
| 推理模式 | 思考/非思考无缝切换 | 支持深度推理 | 支持 thinking 模式 |
| 实时检索 | 依赖外部工具 | 原生实时网络搜索 | 需外部检索工具 |
| 价格策略 | Plus ¥2/百万 Token 起 | $5-30/百万 Token | 开源免费/API 低价 |
| 部署方式 | 阿里云百炼/Qwen Studio | OpenAI API/ChatGPT | 开源权重/本地部署 |
| 多模态支持 | 原生文本/图像/视频 | 全模态支持 | 文本为主 |
Qwen3.7 的差异化优势在于:双版本策略覆盖不同需求层级,百万 Token 原生上下文,以及 思考/非思考模式的无缝切换。
七、Qwen 迭代速度明显提速
有网友感慨:"Qwen 发布新模型有点东西,人们还没来得及讨论完一个模型,下一个模型的预告片就已经自动播放了。"
回顾 Qwen 的发布时间线:
早期(2023-2024):间隔约 4-6 个月放出一个大版本,节奏比较"随大流"
转折点——Qwen3 系列(2025 年 4 月):包括 dense 模型和 MoE 模型,参数规模从 0.6B 到 235B,支持 Thinking(复杂推理)和 Non-Thinking(快速响应)双模式
Qwen3 及以后:迭代节奏明显提速,大版本间隔缩短至 2-3 个月一次
2026 年以来:几乎每个月都有新动作,从 3.5 到 3.6 再到 3.7,版本号更新非常迅速。普遍节奏是 Preview 版本先上线——社区先测/开发者先用——正式版再跟进。
这反映出阿里 Qwen 团队已进入 快速实验、高频交付 的阶段。
八、林俊旸离开后,Qwen 依然在加速
尤记得 Qwen 前负责人林俊旸离开时发布的那条推特:
"Qwen 的兄弟们,按原来安排继续干,没问题的。"
他离开时,Qwen 处于 3.5 时代,和 DeepSeek 一样,是国产开源界的标杆模型。
不管是延续以前的作风,还是新负责人的带领,后续的 Qwen 版本确实依然在一步一步更快,也更好。从 3.5 到 3.6 再到 3.7,迭代速度不仅没有放缓,反而进一步提速。
这或许说明了一个重要的趋势:大模型的迭代已经从"个人英雄"时代进入"团队机器"时代——成熟的团队、成熟的流程,让迭代不再依赖某个核心人物的留守。
九、如何体验 Qwen3.7 Preview
目前可以通过以下方式体验 Qwen3.7 预览版:
- Arena 评测平台:访问 Arena 官网(arena.ai),Qwen3.7 Preview 已登陆该平台供公开横向评测
- Qwen Chat:官方对话平台也可直接体验
- 选择模型版本:Max-Preview 适合极致推理场景,Plus-Preview 适合均衡体验
注意:现阶段仅开放思考模式,网页搜索、代码解释器等辅助工具暂不可用。
正式版预计将在 5 月 20 日阿里云峰会 上正式发布,届时将开放完整功能。
十、应用场景展望
Qwen3.7 的技术特性为以下场景带来突破性可能:
智能软件开发
基于 SWE-bench Pro 领先的编程能力,辅助代码生成、调试与仓库级项目分析,支持高难度软件工程任务。
代码仓库级分析
用 Plus 百万 Token 或 Max 256K 上下文窗口,一次性理解整个代码库结构,实现端到端的架构梳理与优化建议。
企业知识管理
处理超长合同、研报、技术文档的深度理解与关键信息提取,无需分段输入即可保持全局逻辑连贯性。
多模态内容分析
融合文本、图像、视频输入进行跨模态推理,适用于视觉内容理解、视频摘要生成与多媒体资料审核。
自动化智能体构建
依托 Agentic Coding 与混合推理模式,构建可自主规划、多轮交互并调用外部工具的复杂业务自动化流程。
十一、总结与展望
Qwen3.7 Preview 的上线,标志着中国大模型在纯推理能力上达到了新的高度:
- ✅ Arena 文本领域全球第 13,国产第一
- ✅ 视觉领域全球第 16,国产第一
- ✅ 数学、编程等细分赛道跻身全球前十
- ✅ 双版本策略覆盖极致性能与性价比
- ✅ 百万 Token 原生上下文 + 思考/非思考无缝切换
阿里云百炼平台年化经常性收入已突破 80 亿元,预计本季度将超 100 亿元,增长主要来自自研通义千问大模型 API 服务及 AI 原生应用。Qwen3.7 正式版将在 5 月 20 日阿里云峰会亮相,届时我们将看到完整的功能解锁。
曾经,我们用几年时间等待一款新手机的升级;如今,我们用几个月甚至几周,就目睹一个模型从稚嫩走向强大。技术从不等待任何人,它像一条奔腾的河流,而我们正站在岸边,既是见证者,也是参与者。
📚 相关文章推荐
你可能还想看:
- 飞牛NAS部署OpenClaw教程:XXOS大佬一键应用轻松对接QQ机器人
- 16G 显卡能跑 Qwen3.6 吗?27B 和 35B-A3B 量化显存对照表,一张图看懂怎么选
- AI 圈又炸锅了!小米开源 MiMo-V2.5、Qwen3.6-27B 发布、OpenAI 30GW 算力规划...
- Qwen3.6-35B-A3B 重磅发布:阿里开源新一代 MoE 大模型,编程能力再攀高峰
- OpenClaw 2026.3.7更新教程:Docker优化与ACP绑定配置详解
📢 关注「Geek 运维」
了解更多最新 Geek 技术分享!

长按识别图中二维码,关注「Geek 运维」公众号,获取:
- 最新 AI 技术资讯
- 实用技术教程和工具
- OpenClaw/Skills 使用指南
- 运维开发最佳实践
- 第一手技术资源分享
评论区