Code Arena放榜：阿里千问3.7编程能力超越GPT

5月26日消息，凌晨，第三方编程评测平台Code Arena公布最新榜单。阿里通义千问最新旗舰模型Qwen3.7-Max得分1541，超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1、Kimi-K2.6等模型，排名仅次于Claude系列，在大模型厂商中位列全球第二。

Code Arena由盲测平台LMArena推出，评测方式为开发者出题，要求模型从零生成完整可交互的Web应用，再由用户对匿名模型的效果进行两两盲测投票。该榜单被视为当前AI编程能力的重要参考之一。

据阿里方面介绍，Qwen3.7-Max面向Agent场景设计，在编程、长程任务等能力上有所提升。官方称其可在数小时内独立完成原本需专业团队两周的复杂项目交付，并能持续运行35小时、累计超1000次工具调用，完成芯片内核的自我编程优化。

模型发布后，部分开发者在社交媒体上反馈，Qwen3.7-Max在长程自主执行能力上表现较好，且相较前代性能提升幅度较大、推理成本较低，在输出速度和生成质量方面具有一定优势。（李佳）