🔥 推特起爆帖监控
搜索和分析大V账号即将起爆的热帖推文。通过SoPilot插件快速评论和互动,抢先一步占领评论区,你将获得更多的曝光。
Big milestone: For the first time @deepseek_ai had 0 day support on domestic AI chips including Ascend and Cambricon If you're curious about what happened, this article explains how the U.S. ban on Nvidia is speeding up the creation of a powerful, parallel AI ecosystem. Link: https://t.co/L0GFzVAhsx
终于赶在国庆前上线了 YouMind 0.5 beta 版。还有很多小问题,但越用越喜欢。 将书架上的学习类书籍搜罗了一摞出来。有些看过,有些没看过,准备国庆期间都看一遍。 YouMind 粉丝用户,多反馈问题,多推广给身边人,后续就有机会获得限量版 YouMind 带鱼显示屏。 YouMind 0.5 正式版将在十月中下旬推出,欢迎提前试用。
在意义之海中寻找意义 当人类的知识被投射到一个连续空间之后,博士生的需求会大大减少,因为人人都可以是“博士生”。过去,博士生最核心的工作是花费无数时间去查资料、读文献、做 citation,把分散在不同学科、不同语境里的碎片知识一点点拼接起来。但在向量化之前,这种连接往往意味着高强度的人工劳动:生物学家的论文和法学家的评论彼此孤立,工程师的日志和历史学家的档案没有桥梁。人类理论上可以把它们联系起来,但代价是海量的阅读、交叉比对与翻译。 这种碎片化导致许多潜在的联系根本没有发生。原本可能引发突破的想法,被淹没在资料工作量的泥沼里。 向量化改变了一切。当文字、图像、表格、代码都被嵌入到同一个坐标空间时,知识不再是一个个孤岛,而是连续的语义地图。生物学与法学可以在邻近的向量里相遇,工程与历史可以在空间中自然对齐。许多过去“未被察觉”的联系,突然变得可见;许多需要高智力人群耗费数年才能完成的查阅工作,如今可以在几秒内生成。 这就是知识连续化的力量:它不仅降低了博士生式的资料劳动成本,更重要的是,它把人类尚未发现的知识联系,从沉睡的噪音中唤醒了。 而人类最缺失的就是“意义“。 The Sea of Meaning — Vectorization as a Continuous Substrate https://t.co/rxQD10bvSU
这篇分享很值得创作者收藏👇 a16z 大会,50 位顶级创作者总结了 7 个共识: 1️⃣ 建立私域(邮件/社区),别被算法绑架 2️⃣ 线上流量要转化为线下关系(Dinner、Meetup、活动) 3️⃣ 把广告打包卖:播客+简报+社交+活动 = 长期合作 4️⃣ 越细分的市场,越能变现(Niche is Rich) 5️⃣ 合作大于单干,跨界联动能加速成长 6️⃣ 先在一个平台称王,再考虑扩张 7️⃣ 真正的护城河 = 品牌 + 分发能力 📌 结论:创作者≠内容生产者,而是“经营品牌和分发的生意人”。
只要你真正理解了:大语言模型的本质就是符号映射,它的通用性就是把语言压缩成一个最小原语——预测下一个 token,那么你就会明白: 1)语言和符号有边界。 LLM 是符号模型,它的疆域不在于重复旧的 NLP 技巧,而在于人类能否把符号宇宙推到极致,把更多经验、直觉和制度转写为符号。 2)传统 NLP 已经沦为低阶能力。 翻译、摘要、问答这些曾经的难题,如今已轻易被模型吃掉。什么故事书生成、教科书自动化,这些项目都不再是有壁垒的方向。小团队就不要再做了。 3)真正的关键是边界。 你要搞清楚什么是 language-modelable——可语言建模的领域。这个领域的最远方的边界与空白,就是符号宇宙的前沿,才是值得探索和能带来回报的地方。 人类在这个方向,要把符号宇宙拉伸,探索到极致。
如果说有什么最值得付费购买的知识或者技能,应该是:可以学会任何事物的能力 元认知能力、元学习能力 只需要和 AI 聊个半小时,就可以入门任何领域的能力 (只是这样的产品,在商业上很难成立) 曾经的,上学 18 年然后再去找工作,这个只适合静态的社会,不适合动态的社会 18 年后最热门的那个工种,现在还不存在于地球上,你上学有啥用 一个大四学生,7 月份大学毕业,某大公司 8 月份发布一个王炸产品,然后这个大学生 9 月份就失业了 只有可随时迁移到另外一个工作、另外一个行业的元能力才有价值 「我是 xx 专业的」、「我本科是学 xxx 的」这种表述以后会出现在喜剧电影里,被下一个时代的人当笑话讲
这个时代的增长黑客完全不一样 一个人就能做很多blogs / tools / extensions来做增长 做增长是最有意思的事情 因为拿到流量这个事情 反馈链路非常短 你只需要做对几个动作 流量就会来 再做对几个动作 流量就会转化 这个过程里 你只需要对话AI 就能把你的洞察全部转化为一个又一个的内容页面 相比以前需要一个增长团队,现在只需要一个能用好AI又能洞察需求的人 一天就可以上架一个小工具,分发到各个流量平台去获取流量,如果十一假期有7天,你就能围绕你的产品构建好几个工具,依靠矩阵的力量大力出奇迹 这是在AI到来之前,想都不敢想的事情
今天,国外最强和国产最强 Coding 模型双双发布。 这大过节的,太应景了。 Claude 4.5 上午发过了,地表最强,没有之一。 GLM-4.6 能力比肩 Claude Sonnet 4,是目前国内最强的 Coding 模型。整体性能超过了昨天发布的 DeepSeek-V3.2-Exp。 智谱这次拿了 7 个权威的 benchmark 来测,结果显示,GLM-4.6 在大部分榜单上,表现跟 Claude Sonnet 4 基本看齐,在国内模型里算是妥妥的第一了。 我先测试了前端的一些case,发现这个模型的前端审美已经真的很像 Claude 4 了,宝可梦的 SVG 画的甚至超过了 Claude4。
我也续费了 warp,一个月 18 刀就能解锁 4.5 sonnet 和 gpt-5 high reasoning,太值了 只用一句话配置好了我的 VPS + 静态住宅 IP,生成好二维码让我的 shadowrocket app 可以扫码使用住宅代理 https://t.co/sGe2VWxoHM
以前找影视、资料,全网搜得眼瞎——TG 频道翻几百条,插件挨个挂,链接还常失效。 我试了新武器:输入关键词秒搜全网盘,并发跑 Telegram 和插件,自动按网盘分好类,docker 一条命令就启动。它叫 PanSou。 https://t.co/JIGCvLtC6z
Anthropic 可能搞错了方向,编程发力虽然之前取得了不错的成绩,但结果是帮 OpenAI 和 Google 在趟路,现在 OpenAI 编程和 Agent 方面追赶甚至超过它了,而它在其他方面似乎并没有突出的地方,Gemini 3.0 发布也很可能会超过它,这样下去搞不好 Anthropic 要成为下一个 Cursor。CEO 格局不行
来自 Cline 的总结:Sonnet 4.5:让AI懂得如何“记笔记” 最近体验了Anthropic新推出的Sonnet 4.5模型,发现它有个非常明显的进步,那就是在压缩对话上下文(compacting conversations)方面,比其他用过的模型都要强不少。 以往不管用什么模型,到了接近上下文窗口(context window)末端的时候,总会觉得有些信息损失或任务表现的下降。而Sonnet 4.5是第一个让我感受不到这种明显任务退化的模型。 坦白讲,这也是目前我发现它相比Sonnet 4,以及甚至相比GPT-5最大的、能真正感受到的优势。 而这个能力恰恰与Anthropic在发布Sonnet 4.5时所强调的一点相吻合:他们称之为**“状态管理”(state management)能力**。换个通俗的说法就是: 这个模型特别擅长给自己“记笔记”。 什么意思呢?就是说,Sonnet 4.5特别善于记录关键信息,以便随时“提醒”未来的自己,“我当前正在做什么”,“做到哪一步了”,“下一步该如何继续”,等等。 Anthropic甚至专门建议用户可以让Sonnet 4.5以维护上下文文件的形式来记录状态,而不仅仅是简单的“上下文总结”(context summarization)。但实际上,这两件事本质上是一样的: 无论是“上下文总结”,还是写一篇像https://t.co/2zTtzIM5vM这样的文档,本质都是让模型写一些给未来自己看的“提醒文档”,用来保存当前任务的上下文信息。 所以,从这个角度来看,我觉得Sonnet 4.5这一特性真的挺厉害的,也是目前最让我印象深刻的地方。
Claude sonnet 4.5 发了,智能体真正要落地前那个最关键的环节,被打通了? 它能连续稳定跑 30 小时完成一个 Web App,这背后的含义比大多数模型能力对比表重要太多了。 我自己的理解: 1. 大模型和 Agent 之间,一直隔着一道工作流的墙,4.5 把这道墙拆了,自己就能连续做事,做一个爱加班的 junior developer 一点问题都没有。 2. 对于 30 小时稳定运行很多人会说,不就多跑了一点嘛,4.0 也能跑任务啊。但问题在于之前的 LLM 跑不了完整的系统流程。4.5 是当下最接近一个 Agent 的模型,这种自洽比加多少 token 上限还重要,我认为这算是模型心智的提升。 3. 从 4.5 能看到 Anthropic 在模型层面悄悄组装一整套 Agent 能力所需的最小骨架,就像是从 DOS 跨入了 Windows 3.1,一切才刚开始变得可用。 4. 那未来 AI 应该是什么样?Claude 给了个比较稳的范例。大家都在讲 AI agent、AI 员工、AI 编程,但你去真跑一个多轮任务就知道,大模型很容易崩。Claude 4.5 的这种稳定性会让智能体范式有一次新的推进。 更大的意义,4.5 把模型从对话体推进到了工作体,下一步,就是怎么用它了。
🚨 今日重磅:ChatGPT美国用户现已能在聊天界面直接买商品啦 🛒 这个功能叫做 ChatGPT 内嵌支付(ChatGPT inline checkout),目前支持购买 Etsy 商品,这项名为”的功能即将拓展至超100万家Shopify商家。 用户购买流程十分便捷: 1. 用户在聊天中提出产品推荐需求 2. ChatGPT 界面将弹出Stripe驱动的内嵌结账窗口 3. 买家选择偏好支付方式,支付,就可以啦 然后,Stripe会生成专属的共享支付令牌(Shared Payment Token,SPT),生成后的SPT将通过API接口传递至商家系统,由商家完成后续交易处理。 背后由 OpenAI × Stripe 联合研发的 智能体商业协议(ACP) 驱动。ACP是开源标准,商家一次集成即可接入AI Agent 销售。 但谷歌的 AP2(已联合 PayPal、Adyen、银联、万事达 等60+支付机构)也在抢跑,靠“合约式对话+分层授权”强化风控。 AI Agent 支付大战要开始了。
我的观察,不一定对 企业家杀伐决断,直取头奖 打工人循规蹈矩,却期望奇迹 根源:打工人做决策的机会太少, 陷入取舍纠结中 既要还要 https://t.co/axxKrqQ6hO
对于精英来说的确如此,要看自己的长处 因为要取得很高的成就,补短板实在太难了 但是对于多数「普通人」我认为还是不能回避自己的弱点 1、这些人并没有什么擅长的领域,往往一事无成 2、这些弱点实在是太基础,如果连这都搞不定,那几乎啥也搞不定了 https://t.co/y3w6IbC9Qw
看到何同学的英文内容出海,也尝试用 AI 搞了一下。 这套工作流能把你的中文视频口播,无缝翻译配音成流利的英文、日文、西班牙语! 效果很自然,创作者出海的必备利器。 视频:WaveSpeed 的 Infinite talk 音频:Listenhub 的 Flowspeech 剪辑:CapCut https://t.co/XL40Pw5lCU
护肤品品牌给我报了一个 14000 的价,拍 60s 视频带货 双 A 醇精华乳
coding agent的效果很大程度上取决于使用者水平,不是提示词水平,而是架构能力和编码能力,可能还需要一点项目管理和人员管理能力。 架构能力在于你能把复杂问题拆分成小的问题,让 Agent 在有限上下文窗口内高质量完成。 代码能力在于你能对 AI 生成的结果进行审查,快速甄别出有问题的代码,提出改进的意见。 项目管理能力在于你擅长分析需求、规划版本、测试验证,能让 Agent 持续的迭代,生成稳定的可运行的版本,而不需要频繁重构或者花大量时间联调。 人员管理能力在于你使用 Agent 就像指挥员工一样,对每个 Agent 的能力边界了如指掌,能让它们刚好在能力范围内帮你完成,知道怎么最大程度的“压榨” AI 的 Token,让它们不停歇的帮你干活。
Open AI 感觉要变成一个超级应用了啊 昨晚支持了直接购物付款全流程,你可以跟 GPT 询问你想要买的产品的要求,GPT 会搜索所有符合要求的。 找到合适的时候商品的时候就可以直接看到 GPT 整理出来的商品详情页。 你可以直接在 GPT 里面付款,不需要跳转到电商平台。可使用信用卡、Apple Pay、Google Pay 或 Stripe 的 Link 付款。 可以在 GPT 里面看到和追踪自己的订单。 为了完成这个服务他们自己也构建了一个为 Agent 提供支付支持的协议 Agentic Commerce Protocol (ACP)。 如果你是 Stripe 用户的话只需要一行代码就可以接入这个协议。 这下电商也得搞 GEO 了,如果你是出海商家,可以直接填表让 GPT 可以搜到你的商品,又一个新渠道。
Anthropic 果然发布了 Claude Sonnet 4.5! 在价格比 Opus 4.1 便宜 5 倍的情况下几乎所有的测试基准都超过了 Opus 4.1. Sonnet 4.5 可以连续工作 30 个小时直到完成任务,在计算机使用上的能力也有了提升,现在 Claude 的浏览器扩展也更强了。 同时 Claude Code 也配合进行了升级,增加了检查点,可以随时回滚代码。 开放了同款的 Claude Agent SDK 基建,其他人也可以用 Claude Code 的技术构建 Agent。 API 里面加上了上下文编辑能力和记忆能力。 另外还增加了一个 Imagine with Claude 的实验性项目,这个界面类似电脑桌面,他会基于你的要求实时生成前端 UI 和功能,目前只对 MAX 用户开放。
这个九月 AI 工具真的卷出新维度了。Flowith 把自己的画布升级成 Context Playground(AI 创想画板)。 用 AI 最烦的就是它总是自己嗨,幻觉一堆,明明只是想改一点点内容,就跑偏了八百里,最后却不得不一遍一遍地试探 prompt…… 现在,Flowith 直接让我一刀剪掉跑偏的部分,AI 幻觉真的被解决掉了。 它把整个创作流程换了种思路,用户第一次真正能在一张画布里自由的创作。 整张画布顺畅的就像是一个“灵感搭建场”,AI 不再主导,而是变成真正的工具层助手,我更愿意称现在的这个形态为“无边记”。
永远不要低估一个人高估自己的能力。 查了下上面这句话,发现意思刚好相反。原文是: Never underestimate a man who overestimates himself. 永远不要低估那些高估自己的人。 ChatGPT:芒格将这句话作为一种警示,表明即使某人可能高估自己,也不能轻视其可能取得的行动或成就。 这两句话都挺有道理的。
人类有一个巨大的相同特征: 对一个世俗意义上成功的人, 在成功后所说的话,会信以为真。
AI时代是要不断抢夺注意力的时代。 Attention is all you need这句话的含金量在不断升高,当注意力成为互联网上不可或缺的稀缺资产,营销,就不再是一门专业技能,而是一种人人必备的生存语言。 你面对的竞争对手,是在手机上,所有用户能看到的东西。 由于生成式AI的普及,信息将极度过剩,以至于通过传统的广告和订阅模式来变现媒体,将变得越来越难。当信息本身不再稀缺,“让信息被看到”的能力,就成了新的竞争优势。 内容,将不再是利润中心。相反,它将成为通往其他东西的‘漏斗顶端’。所以这个时代重要的是分发与获客,而绝非创造。 营销,正在成为一种通识教育,一种基本素养,一种新时代下的“读写能力”。 从前我认为一个人能发展好,只需要掌握心理学,经济学,编程,和外语。 现在,如果不了解营销,不知道如何把精心制作的十几分钟视频,浓缩成一个能让人“忍不住想点”的标题和封面,不懂得如何填补用户需求与产品功能的鸿沟,不了解如何定位并塑造品牌形象,在这个时代下将丧失主动地位。 因为在这种情况下,你只能抱着自己的产品,不断寻找一个看的上你的,抢手的流量合作伙伴,将希望寄托于他人。
要是现在有人问我:说了那么多虚的,有没有什么实在的项目? 熟悉我的老推友都知道,我一直强调“符号海洋”的价值。语言翻译、写报告、写总结,这些都只是浅水区。真的都是在LLM加持下符号界最浅,最弱的能力。 真正的深水区,是当两个超级符号世界正面相撞——人类的规范秩序(法律)与机器的符号秩序(编程)。 这就是 Rule as Code。无论是方法论还是实践,现在都还非常薄弱,几乎还停留在文明级的早期实验阶段。
构建卓越AI产品的关键技能 —— 评估(Evals)方法论 精通评估(Evals)是构建卓越AI产品的核心,也是投资回报率(ROI)最高的活动。它并非遥不可及的魔法,而是一套从真实数据出发,系统性地衡量、发现问题并驱动产品迭代的结构化流程。 一、 核心理念:重新认识评估 (Evals) 评估(Evals)的真正含义远超传统的“单元测试”,它是一个涵盖从数据分析到自动化监控的完整体系。 评估是什么? - 本质: 一种系统性衡量和改进 AI 应用的方法,其核心是针对 LLM 应用的数据分析。 - 范畴: 它是一个广阔的光谱,包括: >>数据分析与错误洞察 (Error Analysis): 从真实用户交互日志(Traces)中发现问题模式。这是整个流程的起点和基石。 >>自动化评估器 (Automated Evaluators): 针对发现的关键问题,创建可持续、自动化的衡量标准。 >>产品级指标监控 (Product Metrics Monitoring): 结合传统的产品指标(如用户参与度、点赞率)形成反馈闭环。 为何如此重要? - 告别“凭感觉” (Vibe Checks): AI 产品的复杂性和随机性,使得单纯依靠主观感觉来迭代变得不可靠且难以管理。 - 提供自信的迭代依据: 评估为你提供明确的反馈信号,让你在修改提示词(Prompt)或产品逻辑时,能确信改进是有效的,且没有破坏其他功能。 - 最高ROI的活动: 直接洞察产品最真实的失败点,让你将资源聚焦在最能提升用户体验的问题上,每次投入都能带来可衡量的改进。 二、 核心方法论:构建有效评估的四步系统化流程 这是整个评估体系中最具操作性的部分,通过一个具体的案例(房产AI助手 Nurture Boss)完整展示。 第一步:错误分析 (Error Analysis) 与开放编码 (Open Coding) 目标: 沉浸在真实的用户交互数据中,发现产品在现实世界中的具体问题。 操作方法: - 检视交互日志 (Review Traces): 使用可观测性工具(如 BrainTrust, LangSmith, Phoenix)查看用户与AI助手的完整交互记录。 - 进行开放编码 (Open Coding): >>像记笔记一样: 当发现任何不理想的交互时,用最自然、最直接的语言写下你的观察笔记(即“开放编码”)。例如:“AI没有在无法满足需求时将用户转接给人工”、“短信对话流被切断,导致AI无法理解”、“AI幻觉出了一个不存在的虚拟看房功能”。 >>保持简单: 这个阶段不需要预设分类或追求完美。关键是快速、真实地捕捉问题。只记录你看到的第一个、最上游的错误,然后继续下一个。 样本量建议: 从 100个 左右的样本开始,持续进行直到你感觉无法发现新的问题类型(达到“理论饱和点”)。 - 关键角色:“仁慈的独裁者” (Benevolent Dictator) >>职责: 由一位具备深厚领域知识的人(通常是产品经理)主导此过程。 >>原因: 避免委员会式的决策内耗,确保评估标准统一且高效。这个过程需要的是品味和专业判断,而非民主投票。 第二步:归纳与聚类 (Synthesis & Clustering) 目标: 将零散的、口语化的“开放编码”笔记,整理成结构化的、可分析的“失败模式”。 操作方法: - 借助LLM进行聚类: 将所有“开放编码”笔记导出,喂给一个大语言模型(如 Claude, ChatGPT)。 - 使用特定提示词: 指示LLM将这些笔记(open codes)归纳为更高层次的类别(axial codes,即“轴向编码”或失败模式)。 - 人工精炼: 审查并优化LLM生成的类别。使其更具体、更具可操作性。例如,将“能力限制”这种模糊的分类,优化为“旅游安排/改期问题”、“人工转接失败”等。 第三步:量化与排序 (Quantification & Prioritization) 目标: 确定哪些失败模式最普遍,从而决定优先解决的问题。 操作方法: - 自动映射: 再次使用LLM,将每一个原始的“开放编码”笔记自动映射到你精炼后的“轴向编码”类别中。 - 创建数据透视表 (Pivot Table): 在电子表格中,对各类别的出现次数进行计数和排序。 - 获得洞察: 你会得到一张清晰的问题优先级列表,例如“对话流问题”(17次)、“人工转接问题”(12次)等。这为你下一步的行动提供了数据支持。 第四步:构建自动化评估器 (Building Automated Evaluators) 目标: 将对关键失败模式的检测自动化,使其成为产品迭代和监控的常规部分。 两种评估器类型: - 基于代码的评估器 (Code-based Eval): >>适用场景: 针对规则明确、非黑即白的问题。例如:检查输出是否为合法的JSON格式、回复是否包含特定关键词等。 >>优点: 成本低、速度快、可靠性高。 - 以LLM为评委的评估器 (LLM as a Judge): >>适用场景: 针对主观、复杂、难以用代码规则定义的问题。例如:“AI是否应该在此时将对话转接给人工?” 构建方法: >>编写评委提示词 (Judge Prompt): 针对一个非常具体的失败模式,编写一个清晰的、要求二元输出(是/否,通过/失败)的提示词。明确定义判断标准。 >>验证评委 (Validate the Validator): 这是至关重要的一步!用你之前人工标注过的数据来测试你的“LLM评委”,通过混淆矩阵来检查其判断与人类判断的一致性,而不仅仅是看总体准确率。不断迭代提示词,直到评委可靠。 - 应用: >>单元测试/CI/CD: 在代码提交和部署前运行,防止问题复现。 >>线上监控: 定期对生产环境的真实流量进行抽样评估,制作仪表盘,实时掌握产品质量。 三、 关键认知:常见误区与行业争议 三大误区: - “AI能自动完成一切”: 错误。高质量的评估离不开人类的领域知识和上下文判断,尤其是在初始的错误分析阶段。 - “不愿看原始数据”: 错误。深入用户交互日志是发现真实问题的最强大武器,任何抽象的指标都无法替代。 - “存在唯一正确的评估方法”: 错误。评估方法需要根据产品阶段、资源和具体问题进行调整。关键是坚持从数据分析开始的原则。 行业争议的澄清: - Evals vs. 凭感觉 (Vibes): “凭感觉”在开发者即用户的场景(如编程助手)中有一定作用,因为反馈闭环极短。但对于大多数产品,这是一种不可靠且无法规模化的方法。 - Evals vs. A/B测试: 两者并非对立,而是互补。Evals(特别是错误分析)为A/B测试提供了高质量的假设来源。没有数据洞察的A/B测试,往往是盲目的。A/B测试本身也是评估体系的一部分。 最终结论: 掌握这套系统的评估方法论,意味着你从一个被动响应问题的构建者,转变为一个主动、数据驱动、能持续提升AI产品体验的专家。这个过程充满乐趣,并且能直接转化为产品的成功和商业价值。
Sam Altman: AI时代发展长板为关键,AI是无限杠杆 在重要而狭窄的交叉点达到世界一流水平 利用AI的无限杠杆倍数进一步放大优势 应试教育要求各科均衡面面俱到, 其实是培养平庸的“优秀者” 弥补短板得不偿失
从24年开始我就持续在观察AI大模型的发布周期 在2025年上半年以前 模型仍然保持3.5-3个月 一个季度一变化的增速 但下半年开始 周期已经进一步缩短了 因为不论是cc还是codex 编程能力已经达到了一定的可用性 加上multiagents的框架可以24小时不间断跑任务 只要有人在HITL就可以获得结果 程序上发生的这种变化会把模型带入指数发展阶段 接下来可能2.5-2个月就会有巨大变化 在2026到来前至少还会再更迭一次(11月中下旬-12月) 这种增速下来看 2026年应该会出现大面积结构性失业了
10年之后的大学专业选择:YC/红杉资本/以色列国家创新署(Israeli Innovation Authority)——机会在增量里 张雪峰被封号可能是割韭菜太狠,另有深意不必谈。 真正的靠谱领先信号,是全球顶尖风险投资机构/以色列国家创新署的投资组合,这是全球顶尖科技团队对未来用数十亿、百亿美元的真金白银下注,其中能够得到巨额资金支持的产业,在10年之后会成长大量需要高技能人才的新兴行业, 这里面新人能发现指数型机会,而不是去和低增长的传统企业里的中年人内卷,在那里中年人会以经验击败年轻人。 以色列国家创业署每年从5000多个项目里筛选出1000个项目予以无偿支持,这是以色列高科技初创企业的种子库,里面涌现了大量后来举世闻名的企业,如英特尔以170亿美元收购的Mobileye等。 我的导师/合伙人Harry Yuklea教授长期在国家经济委员会负责科技政策设计,以及担任国家创新署投委会成员,负责审核10年之后可能成为以色列经济支柱的初创项目。 国家创新署每年都会在官网发布年报,勾勒最近3-5年投资的行业分布和未来科技趋势,会解读就会发现高价值信号,选择专业时就有可靠的参照 图1:我和国家创新署副署长讨论中以科技合作 图2: 以色列国家创新署2025年年报(全文链接在评论区)
Claude Code 2.0 重大更新,我让它自己来总结下更新内容,比官方写的还好: 1. VS Code 扩展(Beta) - 直接在 VS Code 中使用 Claude Code - 侧边栏实时显示 Claude 的代码修改 - 支持内联差异对比 - 可从扩展市场下载 2. 检查点系统(Checkpointing) - 每次修改前自动保存代码状态 - 按 Esc 两次或使用 /rewind 命令快速回退 - 可选择恢复代码、对话或两者 - 让你放心尝试,出错就回退 3. 终端界面升级 - 改进的状态可见性 - 可搜索的提示历史(Ctrl+r) - 更容易重用或编辑之前的提示 4. 自主开发能力增强 - 子代理(Subagents):委托专门任务 - 钩子(Hooks):在特定时间点自动触发操作 - 后台任务:长时间运行的进程不会阻塞其他工作 5. Claude Sonnet 4.5 集成 - 现在默认使用 Sonnet 4.5 模型 - 处理更长、更复杂的开发任务 - 性能和理解能力大幅提升 💡 核心理念 这次更新的核心是让 Claude Code 更自主、更可靠: - 有了检查点,你可以放心让它尝试 - 有了子代理,它可以并行处理复杂任务 - 有了钩子,它可以自动执行重复工作 - 有了 VS Code 集成,无缝融入你的开发流程 所有这些功能现在都已经可用了!
说到底,通用性就是极简。它不是“大家都在用”,而是更精准的东西:用有限的原语,去覆盖无限的任务;用一条通用的基底,去承载所有的变化。一旦有了这样的基底,领域中的一切复杂性都能被模拟。 数学就是最好的例子。乍看之下,方程、曲线、变换仿佛千姿百态,难以穷尽。但最终,它们都能被压缩到少数原语:加法、乘法、再加上一些公理。高等微积分、数论、代数,不过是这些原语的无数次重组。 物理也是如此。牛顿三大定律,把行星的运行与苹果的下落放进同一个方程里。后来,爱因斯坦用时空几何,把更广阔的自然现象压缩进简洁的公式。这些都是科学的“通用性时刻”:有限规则,支撑无限现象。 生物学甚至更直接。生命本身只依赖四个字母——A、T、C、G。DNA 是通用的代码。从这极小的字母表出发,演化出了蕨类、青蛙、鲸鱼、人类。不同生命,只是相同原语的不同排列。 社会技术也有这样的瞬间。比特币用“工作量证明 + 区块链”两条规则,开辟了一种全新的货币秩序。以太坊再往前走一步,把“智能合约”作为通用原语,提供了一个可组合的金融与治理基底。这里同样体现了通用性的力量:压缩 → 重组 → 无限的制度创新。 模式是清晰的: 压缩:把混乱的世界提炼成少数原语。 重组:用这些原语堆叠出无限可能。 这就是为什么通用性等于突破。它不是逐个解决问题,而是发现一种元解法,让一切问题都像是同一主题的变奏。 Universality: Why It Defines Every Technological Breakthrough https://t.co/gGYonZTaqA
因为时间太过久远,我们早已把“计算”当成理所当然的存在,它像空气、像呼吸一般隐形。我们每天打开电脑、敲击手机,却很少意识到——在 1936 年,图灵所揭示的“计算的通用性”,其实是跨世纪的发现。正因为如此,乔布斯才会选择那个“被咬了一口的苹果”作为符号:提醒我们,科技的本质不是一件件产品,而是一次次范式的飞跃。 The first leap of universality gave birth to software. 它把计算从一座座“专用机的动物园”中解放出来,转化为一种普适的思维基底。它不仅让机器可编程,更重要的是,它第一次划定了边界:什么是可计算的,什么是不可计算的。人类因此获得了一个新的地平线——在可能与不可能之间,建立起一条清晰的分界线。也正是在这里,通用性的旅程正式启程。 你只有理解了这第一条通用性飞跃,才能理解第二条。我们将走向第二次飞跃——语言的通用性。如果说图灵让机器的逻辑统一了,那么大语言模型则让语言的逻辑被统一:翻译、推理、对话、写作,纷繁的任务都被压缩到一个最小的原语——预测下一个 token。第一次飞跃定义了什么是“可计算的”,第二次飞跃正在重新定义什么是“可被语言建模的”。 Universality: From Mapping Machines to the Birth of Computability https://t.co/75vOLUZdDw
来自第三方评测结果,结论: > 如果你目前已经用 Claude Code 作为主力编程工具,那么新发布的 Sonnet 4.5 一定会让你开心到飞起。它更快、更稳定、更能被精准控制。 > > 如果你已经是 GPT-5 Codex 的忠实用户,Sonnet 4.5 不一定会让你回心转意。但它对于启动新项目、玩玩「凭感觉编程」、或者需要 Claude 系列特有的「勤劳速度型」任务时,是值得一试的。 ----- Vibe 检测:Claude Sonnet 4.5 作者:Dan Shipper 发布日期:2025年9月29日 Anthropic 最近推出了全新的 Claude Sonnet 4.5。毫无意外地,我们花了整个周末让它写代码、跑长任务,尽情测试了一番。 结论先放在这里: Sonnet 4.5 的速度明显更快,可控性更强,也更可靠。特别是在 Claude Code 环境中,比起之前的 Opus 4.1 更是提升了一大截。在直接对比测试中,它能迅速审查一个大型的代码提交,精确把控多个文件之间的逻辑关系,而且当我们要求它保持精简时,它也从不废话。 当然,在攻克最棘手的线上生产代码问题时,它还没能超越 GPT-5 Codex。不过,对于日常开发工作而言,Sonnet 4.5 已经是一个令人兴奋的进步。以下是我们第一天的「Vibe 检测」。 速度 如果你曾经在 Claude Code 或 Claude 应用里使用过 Opus,你一定会对 Sonnet 4.5 的速度感到惊喜。智能邮件应用 Cora 的总经理 Kieran Klaassen 说:“用起来比之前的 Claude 快了至少 50%。” 在一场直接对比的代码审查竞赛中,Sonnet 4.5 两分钟就审完了一个复杂功能的代码提交,而 GPT-5 Codex 完成同样任务花了约 10 分钟。 速度本身也是一种智能的体现,这种快速反馈,让 Sonnet 4.5 非常适合结对编程。 性能表现 Sonnet 4.5 在长时间、复杂的智能任务(Agentic Tasks)中表现非常出色。我把我们公司 Every 的三个重要表格——公司利润表、每周运营数据表、咨询服务追踪表——全都交给它处理。它轻松撰写出一份第三季度的投资者更新文件,我几乎不需要怎么修改就能直接发送。 Kieran 则拿 Sonnet 4.5 来处理 Cora 应用中的一个程序 bug,结果只花了约 20 分钟就成功解决了,而 Opus 4.1 完全搞不定。他甚至用 Sonnet 4.5 玩起了「凭感觉编程」(Vibe Coding)——把 Cora iOS 版代码以及一本 iOS 开发教程扔给它,不一会儿,一个不错的应用就诞生了: 📷Kieran 用 Claude Sonnet 4.5「凭感觉」编写出的 Cora iOS 应用 Sonnet 4.5 性能的提升,主要归功于以下几点: 1. 更强的可控性(Steerability) Sonnet 4.5 更能准确理解并执行提示词里的指令,不会像之前的 Claude 一样过于「自作主张」。我们 AI 训练部门负责人 Alex Duffy 表示,这种稳定性明显提升了可靠性。 2. 处理超长上下文的能力更强 当面对大规模代码库或长篇提示时,它不会迷路,更懂得关注重点。 3. 更确定、更稳定 同一个提示多次运行后,给出的结果一致性大幅提高。这种可预测性使它更容易掌控。 4. 表达更聚焦、更精练 Kieran 认为 Sonnet 4.5 明显学习了 GPT-5 的风格,更善于直截了当地表达,少了废话,更好用。 当然,还是有一个明显的弱点:GPT-5 Codex 在复杂的生产环境代码任务中,依然比 Sonnet 4.5 更胜一筹。在一次大型代码提交的审查测试中,尽管 Sonnet 更快完成,但 Codex 找到了一个极其隐秘的边缘案例错误(edge case),而 Sonnet 没能发现。 日常使用「触手可及」的测试 判断一款 AI 工具长期能否真正有用,最直观的标准就是我们称之为「触手可及测试」:平常工作中遇到问题时,我们会第一时间想到去用这个工具吗? • Dan 的答案:不太会 目前我的首选依旧是 ChatGPT 和 Codex CLI,日常编程里 GPT-5 Codex 的可靠性更让我放心。不过,如果我一定要用 Claude 系列,我肯定会用 Sonnet 4.5 而不是 Opus 4.1。 • Kieran 的答案:肯定会 Kieran 更喜欢 Sonnet 4.5 和 Claude Code 的组合。对他来说,「Claude Code 就像个拥有20年经验的程序员,而 Opus 4.1 更像一个有着博士学位的专家,GPT-5 Codex 则像一位脾气暴躁的资深工程师。」Claude Code 提供了比 Codex CLI 更丰富的命令行功能,比如后台任务和并行代理协调,而 Sonnet 4.5 又能很好地驾驭这些功能。 • Alex 的答案:也会 Alex 更倾向用 Sonnet 4.5 取代 Opus 4.1。Claude Code 目前依旧是他的日常首选工具,超过 Codex CLI。 最终结论 如果你目前已经用 Claude Code 作为主力编程工具,那么新发布的 Sonnet 4.5 一定会让你开心到飞起。它更快、更稳定、更能被精准控制。如果你已经是 GPT-5 Codex 的忠实用户,Sonnet 4.5 不一定会让你回心转意。但它对于启动新项目、玩玩「凭感觉编程」、或者需要 Claude 系列特有的「勤劳速度型」任务时,是值得一试的。 本文发布时,Sonnet 4.5 的定价还没正式公开,但如果延续 Sonnet 4.0 的价格(每百万输入 token 仅 3 美元),相比 Opus 系列(每百万 token 15 美元),性价比优势明显提升。不过 GPT-5 Codex 依旧更便宜。 本文作者 Dan Shipper 是 Every 的联合创始人兼 CEO。他还主持《AI & I》播客节目,并定期撰写 Chain of Thought 专栏。
Claude Sonnet 4.5 新功能速览 Claude Sonnet 4.5 是我们迄今为止最适合用来构建复杂 AI 智能体 (AI Agent) 的模型,这些智能体可以长时间独立工作。它在编程能力上取得了前沿性的突破,在计算机使用方面达到了业界顶尖水平,并且在金融分析、网络安全和科学研究等领域的智能体应用中表现卓越。 相比 Sonnet 4 的主要升级 卓越的编程能力 Claude Sonnet 4.5 是我们目前最强的编程模型,在整个软件开发生命周期中都有显著提升: • SWE-bench 权威认证的性能:在多个编程基准测试中刷新了业界最高水平。 • 更强的规划与系统设计能力:能做出更优秀的软件架构决策和代码组织。 • 改进的安全工程实践:具备更稳健的安全实践能力和漏洞检测能力。 • 更精准的指令遵循:能更精确地遵循编程规范和需求。 开启“扩展思考”以获得最佳性能:当启用扩展思考功能时,Claude Sonnet 4.5 在处理编程任务时表现会大幅提升。该功能默认关闭,但我们强烈建议在处理复杂编程工作时开启它。请注意,开启扩展思考会影响提示词缓存的效率。具体配置方法请参见迁移指南。 智能体能力 Claude Sonnet 4.5 在 AI 智能体能力上实现了重大飞跃: • 更长的自主运行时间:Sonnet 4.5 可以连续数小时独立工作,同时保持思路清晰,专注于渐进式地完成任务。模型会稳扎稳打,一次处理几个任务,而不是试图一次性解决所有问题。它提供的进度更新都基于事实,能准确反映已完成的工作。 • 上下文感知:Claude 现在可以在整个对话过程中追踪自己的 Token 使用情况,并在每次工具调用后收到更新。这种感知能力有助于防止它过早放弃任务,并使其在执行长期任务时更加高效。技术细节请参见上下文感知,提示词编写建议请参见Claude 4 最佳实践。 • 更强的工具使用能力:模型能更有效地进行并行工具调用。例如,在研究时同时发起多个推测性搜索,或一次性读取多个文件以更快地建立背景信息。通过改进跨多个工具和信息源的协调能力,模型可以在智能体搜索和编程工作流中,有效地利用各种能力。 • 先进的上下文管理:Sonnet 4.5 在外部文件中保持着出色的状态追踪能力,即使跨越不同会话也能保持对目标的专注。结合更高效的上下文窗口利用率和我们新的上下文管理 API 功能,模型可以在长时间的会话中对信息进行最佳处理,始终保持连贯性。 沟通与互动风格 Claude Sonnet 4.5 拥有更加精炼的沟通方式,风格简洁、直接且自然。它会提供基于事实的进度更新,并且在工具调用后可能会跳过冗长的总结,以保持工作流程的顺畅(当然,这一点可以通过提示词进行调整)。 想了解如何更好地与这种沟通风格协作,请参阅 Claude 4 最佳实践。 创意内容生成 Claude Sonnet 4.5 在创意内容生成任务上表现出色: • 演示文稿和动画:在制作幻灯片和视觉内容方面,其表现与 Claude Opus 4.1 相当,甚至更优。 • 创意闪光:能够产出精美、专业的作品,并能很好地遵循指令。 • 一次成功的高质量:在初次尝试时就能生成设计精良、可直接使用的内容。 全新 API 功能 记忆工具 (Beta) 全新的记忆工具 (memory tool) 能让 Claude 在上下文窗口之外存储和检索信息: tools=[ { "type": "memory_20250818", "name": "memory" } ]
技术人,尤其是中青年,当前面临的瓶颈不再是算法或代码层面的,而是社会性与行业性的:旧的制度与叙事无法给出解答。当然,你要硬是argue, 那今天还需要有人去维护 COBOL 系统呢。但如果你不是那批人,你的机会一定在前方。 科技发展的真正主线,是一条通用性之旅。突破从来不是单纯追求“更快、更大、更强”,而是找到最小的原语与一条通用的纸带,把无限复杂压缩成有限工具,再通过无限重组释放潜能。算盘、差分机最后被统一在图灵机的四个动作里;翻译、摘要、推理被统一在大模型的一个原语——预测下一个 token;未来社会的治理与协作,也可能被统一在“共识—协议—结构—叙事”的循环中。 通用性才是突破的本质。它不是让我们做更多相同的事情,而是让我们用更少的工具,做出全新的事情。顺着通用性的方向寻找,你才可能押对未来的出路。 接下来几天,讨论技术和社会的通用性之旅。 Universality: Why It Defines Every Technological Breakthrough https://t.co/gGYonZTIg8
很多学员开发前端的时候,我都建议他们去这两个网站找参考图: - Mobbin:https://t.co/P7c83KcKB1 - UI Notes:https://t.co/XZtQzt0Tzs 这两个网站产品形态基本一样,有丰富的真实应用的截图。前者是海外产品,后者是国内的。 UI Notes一年的会员费72元,Mobbin按年订阅一个月10美金,一年120美金。定价约12倍,所以这就是为什么要努力出海吧🤣
AI 应用最有竞争壁垒的,可能就是人机交互。 好的人机交互,需要充分理解模型的能力边界,同时也需要充分理解人的交互感知,这两者都做到极致,才能产生 aha moment。 比如:ChatGPT 通过对话形态让人与模型能交谈,DeepSeek 通过展示思考过程让人感知到 AI 的推理能力,Manus 通过展示工具调用让人惊叹 AI 真能帮人干活。 这些例子里,交互界面都至关重要。 近几个月让人眼前一亮的,是 Lovart,通过无边画布的形态,让人看到了一种新的交互界面。结合图片、视频等模型,让上下文、生成、修改编辑等过程非常流畅。 Chatbot 的交互形态,大概率最终还会是模型厂商或现有大厂的机会。 Canvas 的交互形态,Lovart、Canva、Figma 等,都在快速演进。或许还有创业者的机会,只要足够垂类。 Agent 不是一种单独的人机交互形态,Chatbot 和 Canvas 都可以无缝加入 Agent 能力。 还有一个巨大的交互形态,是 Voice + 硬件。有一个很值得学习的玩家是 Plaud。一个便携式硬件,非常有机会获得用户的很多线下上下文。这些线下上下文提供给 AI 后,有机会让 AI 生成真正 Only for you 的内容。 或许都有新的内容平台的机会。门户 - 搜索 - 推荐,接下来是什么。有可能是基于用户线上和线下上下文的真个性化内容(Content for one)。于是门户 - 搜索 - 推荐 - 生成,路线清晰了起来。 AI 应用创业,都还在很早期很早期阶段。基础模型能力 + 人机交互界面 + 用户上下文感知,会是产品成败最关键的三个基础要素。
