🔥 Search Hot Tweets
Search and analyze hot tweets from KOL accounts list (list: https://x.com/i/lists/1961235697677017443) within 6 hours. Use SoPilot plugin to quickly comment and occupy the comment section.

凡人小北
来云栖大会还是想聊聊大模型。今年模型卷出了新高度,Qwen 系列本身就已经挺出圈了,原本以为这次发布也就是常规的体量升级和行业对标,结果发现 Qwen3 系列,特别是 Max,还是让我有点小佩服了,真的出了不少东西。 尤其是 Max 的推理机制的提升,作为从业者真的要要开始重新评估国产大模型在业务系统中的组件可用性这个核心命题。 这次Qwen3-Max 两个形态,Instruct 负责对话和常规能力覆盖;Thinking 强化的是多轮推理与复杂任务拆解。其实我不太关心万亿参数规模,我一直盯着它在推理时间可控性上的突破。 这也是过去很多人会忽略的一个重要维度:一个模型在回答问题前到底思考了几次。Qwen3-Max 的这一机制有点像拿根小鞭子抽模型,你让它想清楚再说,它就真能多推理几步。这种在认知深度与决策稳定性上的改进跟我们常讲的 token-level 性能优化不一样。 我对这种变化太敏感了,说明国产大模型终于开始在推理策略层面与 GPT-4 进行对线,而不只是死磕规模了。 这次阿里也给出了一组有力的国际 benchmark 数据,像 AIME25、HMMT 这些数学推理集做到了全球第一。还有 Tau2 Bench这种专打多轮 agent 任务的也都表现不错,这种需要强路径规划和中途保持稳定意图的,我非常关注。 尤其值得一提的是 Qwen3-Next 这个高性价比压缩版,非常适合做低成本部署的智能问诊 / 客服助理。这类模型基本没机会拿 benchmark 冠军,但在真实业务里却是性价比的首选(划重点)。 所以我们看 Qwen3 的整个产品线就非常清楚了:端侧、旗舰和多模态等等全家桶几乎覆盖了所有我们能想到的调用场景和系统部署边界。这种模型系统化战略我是非常认同的,Agent需要靠角色分层+功能分布+推理调度这种架构才能真正构建稳态系统。 我的判断是这代 Qwen3 在试图做更可控、更系统的智能体构建平台。这一轮升级可能就是最产品经理视角+工程视角合理进化的一次,尤其对我们这种偏落地场景、智能体调度的人来说真的很实用。 最后我们选择接入哪个大模型就看谁能稳稳的出活。Qwen3-Max可能是国产模型离这个目标最近的一次。 #阿里云 #通义千问 #Qwen3 #2025云栖大会
Est. 700 views for your reply