2月4日盲测榜Qwen2.5 - Max成绩佳中国大模型新荣耀

来源：网络作者：日期：2025-02-05 06:06:29

K图 09988_0]

在2月4日清晨，三方基准测试平台Chatbot Arena宣布了最新的大型盲型测试清单。 Qwen2.5-Max刚刚发布的Qwen2.5-Max超过了DeepSeek V3，O1-Mini，Claude-3.5-Sonnet和其他型号。 1332分在世界上排名第七，这也是中国型冠军。同时，QWEN2.5-MAX在数学和编程等单项功能中排名第一，在硬提示中排名第二。

_2015全球高校排名榜单_2016全球高校排名榜单

据了解，Chatbot Arena是由LMSYS ORG启动的大型模型性能测试平台，目前集成了190多个型号。该列表使用匿名方式将用户向用户提供给用户进行盲目测试。用户根据真实的对话经验投票支持模型功能。因此，聊天机器人体育馆LLM排行榜已成为该行业认可的最公平和权威的清单之一，它也是世界顶级模型中的重要舞台。

2015全球高校排名榜单_2016全球高校排名榜单_

聊天机器人竞技场正式评论：阿里巴巴的QWEN2.5-MAX在许多领域，尤其是专业和技术方向（编程，数学，硬提醒等）的表现强劲。

2016全球高校排名榜单_2015全球高校排名榜单_

Qwen2.5-Max是一周前由阿里巴巴云人员发布的最新MOE模型，表现出色。在主流基准测试中，例如Arena-Hard，LiveBench，LiveCodeBench，GPQA-Diamond和Mmlu-Pro，将Qwen2.5-Max与Claude-3.5-Sonnet进行比较，并且几乎超过GPT-4O，DeepSeek-v3和Llama -3。 1 -405b。

2015全球高校排名榜单_2016全球高校排名榜单_