SoPilotSoPilot

🔥 Search Hot Tweets

Search and analyze hot tweets from KOL accounts list (list: https://x.com/i/lists/1961235697677017443) within 6 hours. Use SoPilot plugin to quickly comment and occupy the comment section.

Real-time Hot Tweet Analysis

歸藏(guizang.ai)

歸藏(guizang.ai)

@op7418· 102.0K followers

阿里这也太猛了一口气在云栖大会发了超多模型。 其中最重要的是 Qwen3-Max,目前通义规模最大能力最强的模型,包含 instruct 和 thinking 两个模型。 测试集的数据有点可怕,根据他们的测试能力水平已经接近 Claude 4 Opus 和 GPT-5。 在 LMArena 上人工评价结果仅次于 Gemini 2.5、Claude 和 GPT-5。 SWE-Bench Verified 编码测试集上达到了 69.6 分,智能体测试集 Tau2-Bench  上甚至超过了 Cluade opus 4. Qwen3-Max-Thinking 在数学基准 AIME 25 和 HMMT 上获得了满分,目前还没上线。 模型总参数超过1T,预训练使用了36T tokens。 训练稳定性上没有任何loss尖刺,也没有使用训练回退、改变数据分布等调整策略。 其MFU相比Qwen2.5-Max-Base相对提升30%。使用ChunkFlow策略支持了一百万上下文的训练。 同时在训练时也对硬件做了优化,在超大规模集群上因硬件故障造成的时间损失下降为Qwen2.5-Max的五分之一。

86
16
14
19.0K
Posted 4d ago · Data updated 4d ago
Reply Suggestion

Est. 500 views for your reply