🔥 Search Hot Tweets

Discover fast-rising X posts through keyword search and intelligent analysis. Review high-potential tweets manually, or use Automated X Engagement in hot tweets mode so SoPilot can open tweets, generate quality comments, and save engagement history during the golden window.

We recommend installing the SoPilot plugin so comments or quote-post content can be generated automatically when opening X posts.

yibie
3.9Kfo
yibie@yibie· 4h ago发布

推荐这篇文章,Flask 作者 Armin Ronacher 追踪 Pi 的 bug 发现了一个让人不安的事实:新版 Claude 模型(Opus 4.8、Sonnet 5)的工具调用在退化——不是变好了,是变差了。而且他找到了根因:RL 后训练过度适配了 Claude Code 自己的工具 schema,导致替代工具 schema 越来越"离群"。这是所有自己做 agent harness 的人都需要读的文章。 更好的模型,更差的工具调用 一个奇怪的 Pi issue 让我在过去两天掉进了一个深坑。简短版:新版 Claude 模型有时会在调用 Pi 的 edit 工具时,给嵌套的 edits[] 数组加上多余的、编造出来的字段。不是 Haiku 或什么小模型——是 Opus 4.8。编辑本身通常是正确的,但参数不匹配 schema,因为模型发明了不存在的 keys,Pi 拒绝工具调用并要求重试。 这不完全意外——模型偶尔会发出格式不正确的工具调用,特别小的模型。但让我意外的是,这在 Anthropic 的新模型中变得更糟了。Opus 4.8 和 Sonnet 5 都表现出这个问题,而之前的旧模型不这样。换句话说,这个模型家族的 SOTA 模型在某个特定工具 schema 上不如它们的旧兄弟。 工具调用就是文本 如果你没有花太多时间看 LLM 工具调用的内部机制,需要理解的重要一点是:工具调用不是魔法。模型收到一份转录文本、一个系统 prompt 和一个可用工具列表。服务器把这些搅成一个带有特殊标记 token 的大 prompt。因为模型用那个格式的示例训练和强化过,它在生成过程中某一点会发出被 API 或客户端解释为"用这些参数调用这个工具"的东西。 细节是:嵌套数组里面的 JSON 是序列化在 XML 标签里面的。基本顶层字符串参数在线显示,而对象数组通过 JSON 序列化实现。这很重要,因为当模型在一个几百 token 的转义字符串后面要决定 } 还是 ,"..." 时,这正是最高熵的点。 失败 Pi 的 edit 工具支持在一个调用中做多个精确字符串替换,所以参数里有一个 edits 数组。在失败的案例里,模型产生了这样的条目:额外加了 requireUnique: true、oldText2、newText2。反复测试中我看到了一整批编造出来的尾随 keys:type、id、kind、unique、requireUnique、matchCase、in_file、forceMatchCount、children、notes、cost,甚至一个 event.0.additionalProperties 在里面。 最烦人的是,实际 oldText 和 newText 负载在我检查过的无效调用里是字节级正确的。模型确实产生了正确的调用,然后在对象末尾加了垃圾。 这个失败也高度上下文依赖。全新的单轮"编辑这个文件"prompt 完全不会复现。有 agent 历史——模型读过文件、诊断了问题、然后写了多行编辑——就能复现。而且不是所有转录都会这样。打开 strict 工具调用在我的运行中完全消除了问题。 为什么在变差 我最强的假设是这不是随机退化,而是训练 artifact。 旧 Anthropic 模型训练时,它们训练了一些工具,但那个训练还没有 Claude Code 这样用户交付的 harness 作为明显目标。现代 Anthropic 模型大概率不同,因为它们的后训练包括了 Claude Code 或一个看起来非常相似的 harness。模型学到了在那个环境下什么样的工具调用是成功的。它也会学到那个环境容忍什么错误。 Claude Code 自己的工具相对扁平。普通 edit 工具不是 Pi 的嵌套 edits[] 形状,更接近 file_path、old_string、new_string 和一个可选 flag(replace_all)。看 Claude Code 的客户端非常有启发:它包含格式错误工具用的重试路径、参数别名、类型强制转换、Unicode 修复和未知 key 过滤。换句话说,Anthropic 自己的客户端似乎期望和接受相当数量的 slop,并修复它,大部分是静默的。 如果强化学习发生在这样的 harness 里,或一个模拟里,那么稍微格式不正确的工具调用仍然可以完成任务并得到奖励。harness 完全吸收了错误,几乎不存在惩罚"发明一个别名"、"加一个多余字段"或"用一个相近的参数名"的梯度。 更糟的是,模型可能变得极强地适应了标准 Claude Code edit 工具的形状。一个不同的 harness 可以提供语义相同但 schema 不同的工具。这样的工具会越来越离群。训练得更好的模型可能实际上更难对付你,因为它的先验更强。 这不算太意外,但这是一个变迁。Opus 4.5 发布时,它适应其他 edit 工具的能力异常好。我当时相当确信我们在一条好路上——模型只要指令好,更可能适应任何种类的工具形状。现在我有些担心我们在哪条路上。替代工具 schema 可能不只是不熟悉。它们可能被优化特定、宽容的工具生态的后训练隐式惩罚。而且那个生态没有文档。 Slop Harness Claude Code 是闭源的,但我们可以看压缩后的代码。老实说,它对输入数据非常宽容。 首先,Claude Code 检查模型可见文本里是否有泄露的 <invoke 标记。然后有自己的状态机来重试坏调用。它有显式 Unicode 转义修复来修坏掉的 \uXXXX 序列和孤立代理。每个工具都有参数别名。比如 Edit 接受 old_str、old_string、new_str/new_string、path 作为 file_path 的别名。它还会静默过滤不认识的 key,也不使用 strict 模式。 这对 harness 意味着什么 让人不舒服的教训是:工具 schema 不是中性的,至少在 Anthropic 模型上不是。我们喜欢假装 schema 是抽象合约,模型是通用推理器会遵守它,但对某些工具来说这可能不再成立。 工具 schema 在分布里的某个位置,有些形状接近模型在后训练中看到的,有些很远。有些对提供商的隐藏编码来说是简单的(比如 ANTML 中的顶层属性),而有些要求模型在长多行字符串后面写大的转义 JSON 对象,嵌套在数组里。模型可能足够聪明理解 schema,但仍然在压力下抽不出那个精确形状。 我以前对严格语法约束的工具调用持更多怀疑态度,因为约束解码可能有质量 tradeoff。我仍然认为这普遍成立,但这个 bug 显著改变了我的先验。如果最新的模型在解决问题上变得更好,同时在忠实生成替代工具 schema 上变得更差,那么 harness 需要在某处有更强的保证。 原文:Armin Ronacher, "Better Models: Worse Tools", 2026-07-04 https://t.co/ReaSKJTkt3 #Claude #Agent #工具调用

48
8
4
10.5K
Data updated 6m ago
Velocity
2.4K/h
Surging
Viral Probability
64%
Predicted Views
25.0K
Est. 1.5K views for your reply
Herman Jin
80.4Kfo
Herman Jin@ShanghaoJin· 2h ago发布

很快出来个开源运行ultracode的平台时 可能要对Claude破障了

25
1
8
8.9K
Data updated 6m ago
Velocity
4.0K/h
Surging
Viral Probability
63%
Predicted Views
50.0K
Est. 500 views for your reply
Holegots
12.1Kfo
Holegots@holegots· 7h ago发布

对于所有大模型产品来说 免费用户就是纯纯负资产 垃圾的数据没有价值 无一例外(早期除外) OpenAI 真的带善人来的

22
0
4
4.8K
Data updated 6m ago
Velocity
627/h
Normal
Viral Probability
48%
Predicted Views
10.0K
Est. 500 views for your reply
车厘子
8.6Kfo
车厘子@0xcherry· 9h ago发布

很高兴能和大家分享 OpenAlice 0.73.0 beta 版本 https://t.co/YjGQFTX8Oh OpenAlice 致力于成为你的一人华尔街。 在全新的版本中,你可以使用 Coding Agent 完成复杂的交易动作,并充分利用 Trading as Collaboration(交易即协作)的特性,来让 Agent 增强你的交易全链路。 在交易增强方面,你可以: - 使用 Inbox 来管理 AI 向你推送的高价值信息 - 让 AI 动态创建跟踪的实体、事项、报告 - 使用[[]]双链语法将实体、事项、报告连接起来,构建属于你的深度交易系统 - 通过自描述调度,实现定时调仓、追踪关键时点 - 让 Agent 根据需求改造 Workspace,创造你独特的交易工作流 在市场分析方面,你可以: - 使用 traderhub 获得宏观数据的开箱即用体验 - 通过 vendor 与 Broker 同时获取 K 线 - 更多的预置 vendor,支持全球资产追踪(未来会更多) 在 AI 调用方面,你可以: - 拥有与直接使用 Coding Agent 几乎无区别的体验,支持 Claude Code / CodeX / OpenCode / Pi - 使用几乎所有主流的 AI 模型和订阅计划,如果你已经订阅了 Claude Code/CodeX,你可以直接使用而无需再付一份钱——毕竟,OpenAlice Workspace也是被抽象的代码工作! 与此同时我们还提供了: - 一个签名的 dmg 包!mac 用户可以直接下载使用 - 依然简单的启动体验,clone->install->run 一气呵成 - docker 部署和 remote 部署支持 - 更好看的UI - 依然完全开源 希望你喜欢。 官网:https://t.co/YjGQFTX8Oh 仓库:https://t.co/63cTscFOYJ Discord:https://t.co/RDBZ24eAbh QQ 群:https://t.co/LUtoQhklyq

57
4
4
4.6K
Data updated 6m ago
Velocity
469/h
Normal
Viral Probability
55%
Predicted Views
10.0K
Est. 500 views for your reply
马东锡 NLP
40.2Kfo
马东锡 NLP@dongxi_nlp· 4h ago发布

大致数了一下: 因为 openclaw 作者随手发了个概念模糊 loop 的推文,这个月内时间线上多出一千篇 以 loop 为关键词的垃圾。 再看有些论文,也开始加 loop 关键词。这半年的突然冒出又突然消失的关键词大致有 claw,molt,loop,基本都跟 openclaw 相关。 所以谁是 AI slop 鼻祖,应该确认了。

88
7
15
11.5K
Data updated 6m ago
Velocity
2.8K/h
Surging
Viral Probability
70%
Predicted Views
40.0K
Est. 200 views for your reply
钟二信
4.3Kfo
钟二信@zhongerxin· 11h ago发布

Cowart v0.1.10 更新啦: 1. 「AI 图片」可以直接在画布里输入 Prompt,并支持了添加参考图片 2. 标注好图片后,可以一键把标注发送给 Codex 生成修改后的新图 3. 从网页浏览器打开,升级为 Codex 更原生的 Widget 不严谨的说,但凡 Codex 的 image_gen 能生成得更快一点点的话,现在的 Cowart 大约可以部分替代掉一点点另一个 art GitHub: https://t.co/S4U1sL44iJ

47
4
4
4.7K
Data updated 36m ago
Velocity
434/h
Normal
Viral Probability
54%
Predicted Views
10.0K
Est. 500 views for your reply
Web3_吃肉🔶BNB
27.1Kfo
Web3_吃肉🔶BNB@chiroukyc· 9h ago发布

基于近期大规模出现的Codex短信验证风控 我们决定进行24h的英国🇬🇧giffgaff卡优惠活动 本站注册会员仅需29元为您包邮到家 长效使用二次接码无忧 源头渠道 诚邀代理🫡 商品https://t.co/tFWn6Hvqqh 频道https://t.co/rf7Zk0N479

48
5
6
10.8K
Data updated 1h ago
Velocity
1.4K/h
Surging
Viral Probability
61%
Predicted Views
30.0K
Est. 300 views for your reply
Phoenix Yin
12.6Kfo
Phoenix Yin@Phoenixyin13· 11h ago发布

今天聊聊改变人类文明的神级机构排名 S+ 神话级 1.贝尔实验室:晶体管、信息论、Unix、C语言、激光、CCD……一家公司实验室拿了10次诺奖。没有它就没有信息时代,个人认为它是毫无争议的断档第一。 2.卡文迪许实验室:电子、中子、DNA双螺旋,统治了物理学半个世纪。 S 传奇级 3.洛斯阿拉莫斯:单一目标下的人类智力密度峰值。奥本海默、费米、冯·诺依曼同处一室。但遗产偏单一,主要是核与蒙特卡洛方法。 4.哥本哈根玻尔研究所:量子力学在这里被谈出来的。以极小的体量撬动了整个20世纪物理。 5.普林斯顿高研院:爱因斯坦、哥德尔、冯·诺依曼、外尔同时在职。但常被批评养老院化,产出人才比其实不算顶尖。 A+ 殿堂级 6. MIT 辐射实验室:原子弹结束了战争,雷达赢得了战争,并且后来还孵化了整个MIT战后科研体系。 7.施乐 PARC:图形界面、以太网、鼠标交互、激光打印机。发明了个人计算的全部,只是钱都让苹果和微软赚了。个人认为,它是伟大发明但商业失败的永恒案例。 8. CERN:标准模型的试验场,顺手发明了万维网。 A 大师级 9.马克斯普朗克研究所:体量巨大、诺奖众多,但它是一个系统,好多个所,单点浓度被稀释了。 10.冷泉港:分子生物学的麦加,个人认为但更像社区,会议中枢而非发明源头。 11.朗道研究所:纯智力水平可能是苏联之最,可惜体制限制了世界影响力。 B+ 风格独特但产出待验证 12.圣塔菲研究所:复杂性科学的旗帜,思想影响力大于硬成果。它更像一种氛围和方法论宣言。 13.RAND:博弈论和系统分析影响深远,但作为智库,功过难分。 14.Janelia:制度设计最自觉,但成立太晚,还没到盖棺定论的时候。 我发现一个有趣的规律。 S级机构几乎都有垄断利润或战争预算在背后,比如AT&T垄断、曼哈顿计划、战时雷达。 自由探索的黄金时代,底下垫的都是不计成本的钱。但圣塔菲那种靠捐赠的清贫模式,思想输出可以,硬科技就难了。 DeepMind、OpenAI、Anthropic 现在大概在 A 与 S 之间悬着。十年后回头看,可能是贝尔实验室second coming,也可能是PARC 2.0。期待十年后,我的回看。

193
37
23
21.5K
Data updated 3h ago
Velocity
2.8K/h
Surging
Viral Probability
72%
Predicted Views
89.0K
Est. 300 views for your reply
白骏知识分享
128.4Kfo
白骏知识分享@cj3214567667· 11h ago发布

codex国产平替,Workbuddy一句话搭建视频工作流【评论区附完整课程】 https://t.co/TqsPRngHET

112
25
6
8.1K
Data updated 3h ago
Velocity
1.0K/h
Surging
Viral Probability
74%
Predicted Views
26.0K
Est. 300 views for your reply