云开体育是千问App的中枢底座-开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口
新闻资讯
发布日期:2025-11-22 07:19 点击次数:72


导语:Qwen3 旗舰模子已投入全球第一梯队、国内Top 2–3的行列:详尽才智略低于Gemini3、GPT-5.1和Kimi K2 Thinking,但与Grok 4.1、Claude Opus 4.1属于同档。
阿里近期发布的千问App激发了外界的慈祥,其背后的Qwen3大模子与国际和国内几大模子的性能对比,到底水平怎样?对用户来说又该怎样笔据不同的任务来取舍不同的大模子?今天给众人作念个对比与归来。
01 Qwen3的基本面
阿里在本年推出的第三代大模子Qwen3,是千问App的中枢底座。它有几个重要特色:
一、体量和架构
Dense模子:从0.6B一直到32B;
MoE旗舰:Qwen3-235B-A22B(235B 总参数、22B 活跃参数),格外于“参数巨舰+算力省电”。
二、教师范畴
教师数据约36万亿token,隐敝119种说话/方言。对数学、代码、STEM推理作念了特别强化。提供“Thinking 模式”,相通GPT-o1 / DeepSeek-R1那种显式推理版。
三、愚弄形态
包括文本对话、写稿、代码、多模态(图像/文档/表格),长凹凸文版块能支捏百万级token,对长文档场景很友好。
千问App由于面向C端,庸碌会使用相通“Qwen3-Max / Qwen3-235B旗舰+ Thinking版”的组合。
02 拿什么“尺子”来估量Qwen3?
使用如下主张来测评Qwen3的水平:
Artificial Analysis Intelligence Index(AA 指数)AA指数把MMLU-Pro、GPQA、HLE、LiveCodeBench、SciCode 等十几个高含金量基准会通,
临了给每个模子一个0–100 的详尽“智能分”。这个分数现在是国际上最常被援用的大模子“总评分”之一。
LMArena / Text Arena(东谈主类盲评Elo榜)遴荐无数果真用户不看模子名,只看呈报,投票哪一个更好的模式,用Elo评分来名次,更偏“果真使用体验”的维度。
除此除外,还会使用一些单项基准来进行评测:
AIME2025:竞赛级数学;HLE(Humanity’s Last Exam):极难详尽覆按;LiveCodeBench/SciCode:偏实战的软件工程与科学代码;以过甚它经典的MMLU、GSM8K、HumanEval 等。
本次评测主要围绕AA榜+东谈主类盲评榜,再辅以少许专项基准,尽量作念到客不雅公正。
投入“顶级区”,但天花板依旧。
AA指数:按现在公开信息,各主流大模子的AA指数得分不错见下表:

注:在AA《State of AI: China Q2 2025》里被列为“最好非推理 LLM”之一,分数带星号暗示部分基于厂商数据筹办
就以上得分看,Qwen3的旗舰版块仍是站在Grok 4.1和Claude 4.1的身边,但和Gemini3 Pro、GPT-5.1、K2 Thinking之间,还保管着7–10分独揽的差距——这在顶尖模子之间,依然是能感知的差距。
东谈主类盲评Elo榜:评测效果是Gemini3 Pro和Grok4.1(Thinking)轮换占据榜首隔壁。GPT-5.1、Claude 4家眷也稳居头部。Qwen3旗舰的打分固然略低于这些“榜一老迈”,但照实仍是混在第一梯队前哨,和它们归并张榜单抢票。
更直不雅的表述是:实在让国外设立者和策画者投票时,用户仍是不错感受到:“Qwen3是强模子,和GPT-5 / Gemini3这一线对比,体验上不会拉开庞大差距。”
再看几个单项评测:
AIME 2025:竞赛数学测试效果简短排序是:GPT-5 Codex (high) ≈ GPT-5.1 > Kimi K2 Thinking > Grok 4 > Qwen3 235B > Gemini 2.5 / Claude 4 系列。
不错会通为,Qwen3在高难数学上是第一梯队,仅仅在“竞赛数学+推理特化”的场景中,GPT-5.1 / K2 / Grok 4这些“卷数学的怪物”更强。
HLE:超难详尽推理在这个测试中,Kimi K2 Thinking和GPT-5家眷在HLE里发扬最夺目。Qwen3和GPT-4.1/Grok-3/Gemini-2.5 Pro这一代差未几,略有擢升。测试效果意味着,Qwen3在极限详尽推理上没拉胯,但也不是拿第一的阿谁。
LiveCodeBench / SciCode:工程代码&科学代码在工程代码方面,GPT-5.1≳K2 Thinking≳ Grok4≈Gemini2.5Pro> Qwen3≈DeepSeek-V3.2。在科学代码(SciCode)测试中,差距更减轻,众人王人在40%多一丝的区间里挤。
也等于说,要是你用千问写代码,它的水平简短等于“略弱一丝的GPT-5.1 / K2 / Grok4”,但毫不是上一代那种显然掉队。
03 中国四强对比:Kimi、Qwen3、DeepSeek、豆包
Kimi K2 Thinking的详尽智能得分约67分,在AA榜上告成冲进全球前五,由于模子挑升强调浏览、器具调用、Agent任务,是以在HLE、BrowseComp等偏“代理”的基准上绝顶强。
Qwen3的详尽智能得分60 分独揽,各方面比较平衡。DeepSeek-V3.2-Exp的详尽智能约57分,特色是国产芯片适配、长凹凸文性能、推理能效方面作念了优化,为中国算力环境量身定制。
豆包1.5 Pro(非推理版),AA China Q2 讲述中给出的智能指数约 48*,在非推理模子里属于头部,且被列为“最好非推理大模子”之一;但其推理版(Thinking)现在还莫得圆善的AA详尽分公开。
详尽分数上:K2 Thinking > Qwen3 > DeepSeek-V3.2 >豆包1.5Pro。但要是从“算力资本+国产芯片环境”起程,DeepSeek就有私有位置,而Qwen3则在“生态+隆重通用才智”上愈加平衡。

04 用户的视角
闲居问答、写稿与常识检索对汉文/中英搀和的闲居用法来说,Qwen3 + 千问App 基本仍是是寰宇级的体验之一。呈报速率、常识隐敝、凹凸文操心、写稿作风王人很熟识。和GPT-5.1 / Gemini 3 Pro比拟,差距主要在极限长链推理和一些特定专科英文范畴。豆包则在当然汉文抒发、白话化对话、酬酢媒体语境下的作风更当然,相宜作念聊天、轻量问答和践诺创作。
数学&竞赛级题目要是用户的使用场景是:竞赛数学、高档逻辑题、顶点复杂链式推理等,GPT-5.1、Gemini 3 Pro、Kimi K2 Thinking、Grok 4.1 现在仍然略强。
代码设立Qwen3 在LiveCodeBench / SciCode 这类基准上的发扬,仍是是“工程可用”的一线水平。真刚直范畴作念代码重构、复杂调试时,GPT-5.1、K2 Thinking、Grok4在一些数据里略有上风,但Qwen3+好的器具链(IDE插件、CI集成)足以支捏绝大多数团队的闲居设立职责。
多模态、文档和表格这一块是Qwen家眷的毅力之一:Qwen2.5-VL和Qwen3-Omni在图像会通、PDF/文档领会、表格/图表任务上云开体育,常常在论文和评测里拿高分。对用户来说意味着你把PPT、PDF、扫描件、复杂报表丢给千问,它一般能看得比较领会。
Powered by 开云官网kaiyun皇马赞助商 (中国)官方网站 登录入口 @2013-2022 RSS地图 HTML地图