🔥 Search Hot Tweets
Search and analyze hot tweets from KOL accounts list (list: https://x.com/i/lists/1961235697677017443) within 6 hours. Use SoPilot plugin to quickly comment and occupy the comment section.

AI 如同电力,关键不在于谁能造出最亮的灯泡,而在于是否能建成覆盖全社会的“电网”。对普通人来说,包括程序员,真正的指数级机会不是在造模型端,而是在电网端:如何建立一套社会、技术与制度共同组成的网络,让智能像电力一样可靠、普及、隐形地运行。没有电网,AI 只能停留在少数人的炫目演示里;有了电网,它才能成为支撑下一阶段文明的底层基石。 AI as Electricity: Turning High Voltage into Everyday Use https://t.co/6Do2TLkL07

这个月参加了很多大会,见了不少人,跟去年不一样的是都开始谈“all in AI”。 现在一听到“all in AI”这个词我就脑瓜疼。 我对 AI 本身没什么疲惫感,主要现在很多企业喊得太轻巧太空洞了。 组织在用一种“只要喊了就算做了”的方式, 假装在变革。 但其实谁都知道,那些真正该动的地方一个都没动。 从组织角度讲,我看到的大多数所谓 all in,更像是一种花活,写一堆 MCP,挂个 AI 模块,接着开个发布会,发个 pr。 然后自我感动地告诉全公司,我们已经拥抱未来了。 那这个时候我就会很认真去问: - 那你们的数据打通了吗? - 你们把原来的流程拆了吗? - 你们给 AI 真的分配了决策权了吗? 回应基本就是沉默或者支吾。 说说我的看法,我现在特别警惕也特别反感那种技术热词主导的战略决策,它们太容易让人放弃思考、放弃怀疑并且放弃责任了。 一个人, 只要说 all in AI,好像就赢了; 只要说未来都得靠 AI,好像就站在了浪潮前面; 但实际呢?根本没构建任何 AI 能跑得起来的组织环境,也没有准备好用 AI 重新定义自己手里的权力、工作方式和判断逻辑。 仅仅只是站在原地,举着一个闪亮亮的口号,把自己骗得很开心而已。 真正的 all in,永远是疼的。 需要从最熟悉的系统里抽出骨头,打断惯性的思维方式,然后忍受混乱和不确定; 需要愿意承认“我原来那个流程是错的”、“我原来那套认知已经落后了”; 是必须对团队说:“我们从今天起不再靠人盯数据,而是相信模型先跑一轮”; 而不是说“我们接入了某某 AI API,所以从今天起我们变成 AI 公司了”。 我更愿意看到那种不说 all in,但确实把 AI 真正干进系统里的人。 比如医生端的文献检索系统重构,让医学知识能被自然语言查询和落地辅助决策, 比如客服系统不再是死板脚本,而是有记忆、有学习能力的半自动应答流程, 比如原来要三轮审批的工单系统,现在可以直接通过 AI agent 做前置分拣与聚类分析。 这些可不是 showcase,是一个组织真正动了肌肉骨骼,而不是给自己贴了个 AI 贴纸。 所以当我再听到有人说“我们也准备 all in AI 了”的时候, 我会忍不住想回一句:你准备 all in 的到底是什么? 是未来,还是自我安慰? 是能力体系的更新,还是一种不能落后的集体焦虑? 如果只是想借 AI 节省人力,那最后省下的不是成本,可能是整个系统的进化机会。 如果不想改人、不想改流程、不想改决策逻辑,那就别说 all in,真的没那么便宜的。 深夜的一点想法,写得有点重,但是真心的。 AI 是很酷,但别让它变成了又一个“喊完就算做了”的口号。 我们都值得一点更真实的变化。

如何判断一个赛道是否拥挤 你就看同行的定价就知道个差不多 一套试卷,如果答题的都是尖子生,那答案就都大差不差 如果答题的都是差生,答案就千奇百怪 凡是定价整齐划一的,比如国内 20-25w 的新能源汽车市场,那就是高手如云,刀光剑影 凡是定价稀碎的,一人一个样的,比如国内某平台的心理疗愈赛道,那就是菜鸡成群,一顿胡搞 如果你懂定价,你会觉得毫无竞争可言,整个赛道就你一个人

向阳乔木
SWE-Bench Pro:AI编程能力的“照妖镜“来了 Scale AI推出了目前世界最难的AI 编程能力测试数据集 SWE-Bench Pro 之前最流行的是SWE-Bench Verified SWE-Bench Pro和以往的测试集有什么不同呢? 第一,特别注重防“数据污染”(也叫数据泄漏)。 很多 AI 模型在训练时,可能已经见过评测用的代码,这样成绩会虚高。 SWE-Bench Pro 用强版权开源项目(比如 GPL,出于合规,代码训练很少用)和私有代码库,这些代码很难被模型提前见过。 这样能更公平地测试 AI 的真实水平。 第二,任务多样,覆盖消费级应用、B2B服务、开发者工具、UI/UX等各种类型。 不仅仅是修 bug,还包括新功能开发、性能优化、安全更新、界面改进等。 每个任务都要修改多行代码,涉及多个文件,难度远高于普通测试集。 第三,SWE-Bench Pro 没有把那些描述不清或难度大的问题删掉。 相反,专家会补充说明,把问题描述得更清楚,但仍然保留原有的技术挑战。 这样更贴近真实开发环境。 评测时,AI 需要同时做到两点: ① 解决指定的问题,让新的Test Case能通过 ② 不能让原有功能出错,全部旧的Test Case也要通过。 只有同时满足这两个条件,才算真正“解决”了问题。 数据集分为三部分: ① 公开集:含 731 个任务,全部来自开源项目,成绩公开展示。 ② 商业集:含 276 个任务,来自 18 个初创公司的私有代码库,难度更高,成绩单独展示。 ③ 保留集:含 858 个任务,用于内部分析,不公开成绩。 每个数据集贡献 50-100+ 个问题。 平均每个参考解决方案涉及 107 行代码、4.1 个文件,避免过拟合。 实际测试结果很有意思。 现有顶级模型(如 GPT-5、Claude Opus 4.1)在 SWE-Bench Pro 公共集仅得分 23%左右,远低于旧版基准的 70%+ 在旧版测试集,顶级 AI 模型能拿到 70% 以上的分数。 但在新的 SWE-Bench Pro ,最好的模型 GPT-5 也只有 23.3%,其次是Claude Opus 4.1 23.1% 在私有商业集上,分数还要更低。 说明新测试集的难度和真实性都大大提升了。 不同模型间差距也非常大,最新模型远远领先于旧模型。 任务的编程语言和代码库复杂度,也会影响 AI 的表现。 比如 Python 和 Go 的任务更容易,JavaScript 和 TypeScript 任务更难。 当任务需要要改的代码越多、文件越多,AI 成功率也会显著下降。 总体看,SWE-Bench Pro 是目前最真实、最严格的软件工程 AI 测试集。 能更准确地反映 AI 在真实开发环境下的能力。 原文见评论
Est. 500 views for your reply