阿里巴巴通義千問Qwen3-Max-Thinking登場!HLE評測輾壓GPT-5.2 讓AI越想越聰明
阿里巴巴稍早公佈其迄今最強的旗艦推理模型「Qwen3-Max-Thinking」,這款參數規模突破萬億等級的巨獸,不僅宣稱在多項權威評測中擊敗OpenAI的GPT-5.2-Thinking與Google Gemini 3 Pro,更在被視爲「人類最後測試」的HLE評測中創下全球最高分。
HLE評測狂勝10分,推理能力成最大亮點
Qwen3-Max-Thinking最大的賣點在於其強大的「深度推理」 (Reasoning)能力。根據阿里巴巴公佈數據,該模型使用多達36T Tokens規模的預訓練數據,並且在19項公認基準測試中表現優異。
其中最受矚目的是在HLE評測中,Qwen3-Max-Thinking拿下了58.3的高分,大幅領先GPT-5.2-Thinking (45.5 分)與Gemini 3 Pro (45.8 分)。在AI評測領域,超過10分的差距通常被視爲「代際級」的領先,顯示其在解決複雜數學、邏輯與多步驟任務上的實力。
獨家「經驗提取」機制,讓AI越想越聰明
爲什麼能這麼強?核心在於阿里採用的全新「測試時擴展」 (Test-time Scaling)機制。
不同於傳統方法只是單純增加推理路徑 (暴力窮舉),Qwen3-Max-Thinking導入「經驗提取」技術。它能識別、去除冗餘的邏輯路徑,將算力集中在最有價值的思考分支上,不僅讓推理效率大幅提升,更降低企業應用成本。
此外,針對AI代理 (AI Agent)應用,新模型強化自主調用工具的能力,不再只是透過單純的對話互動,而是能主動判斷何時該聯網搜索、何時該寫程式碼或查閱知識庫,大幅降低模型「幻覺」問題。
超越Llama成爲全球開源新霸主
除了技術突破,Qwen在開源生態的成績也相當驚人。根據Hugging Face數據,基於Qwen的衍生模型數量已突破20萬個,累計下載量超過10億次,日均下載量達110萬次。這意味着Qwen已經超越Meta的Llama系列,成爲全球開發者首選的開源大模型基座。
目前,開發者已可在QwenChat上免費體驗Qwen3-Max-Thinking,企業用戶則可透過阿里雲百鍊平臺調用API。
分析觀點
Qwen3-Max-Thinking的出現,證明中國在「大模型推理」 (Reasoning Models)這條賽道上,已經具備與矽谷巨頭平起平坐、甚至超車的實力。
特別值得關注的是「測試時擴展」技術的應用。過去我們認爲AI的能力主要取決於「預訓練」 (Pre-training)的規模,但現在戰場已經轉移到「推理時」 (Inference-time)的計算效率。
阿里巴巴透過最佳化思考路徑來提升效能,這對於商業落地來說至關重要,因爲企業需要的是「既聰明又便宜」的AI,而不是隻會燒錢的實驗品。
另一方面,Qwen在開源界的統治力,正在爲阿里構建一道深不可測的護城河。當全球數百萬開發者都習慣使用Qwen架構開發應用時,這將反過來推動阿里雲的基礎設施成長。就像當年的Android一樣,誰掌握了開發者生態,誰就掌握AI時代的話語權。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》