🔥 Search Hot Tweets
Search and analyze hot tweets from KOL accounts list (list: https://x.com/i/lists/1961235697677017443) within 6 hours. Use SoPilot plugin to quickly comment and occupy the comment section.
哇咔咔咔!今天第一次做了手抓饭!铸铁塔吉锅一锅出!肥肥的羊排特别给力!超满足,吃了大半锅,睡前再玩会儿壶铃减减肥 https://t.co/jFSWMGFwCS
写了一个 Skill 调MCP 把DAN KOE这篇神文转成6分钟解读视频。 仔细读有些启发,融合了很多人和经典书中的想法,但原创性跟纳瓦尔比差些。 虽然纳瓦尔也集合了前人的智慧,但第一次读“杠杆”、“幸福”等概念的解读,耳目一新,不知道大家的感受如何。 https://t.co/rzWSh5iEUt
我现在写代码尽量用 Codex,其他任务用 Claude Code。 Codex CLI 虽然不好用,但是模型好,写代码稳,并且 Token 量大。 Claude Code 好用,模型写代码不如 Codex,但是通用任务执行的更好。 这里其实 OpenAI Codex 团队是要反思一下后续走向的,空费了这么好的模型,整天做些华而不实的更新。

𝙩𝙮≃𝙛{𝕩}^A𝕀²·ℙarad𝕚g𝕞
这是误读吧,这里的memory只是LLM的attention计算内存,我们说的计算机的内存, 。和人脑的记忆更不是一回事。 N-grams embedding memory offloading hierarchy 在 DeepSeek 的 Engram 模块中,本质上是一种针对 LLM 的条件内存(conditional memory)机制,通过 hashed N-grams 来实现稀疏检索和内存卸载。它不是泛指的 "memory"(记忆),而是一种特定的、集成到模型架构中的检索增强方式,旨在优化计算分配:将早期层的模式重建(pattern reconstruction)卸载到静态哈希表中,从而为更深层的推理保留计算资源。 - 不是 episodic memory(情节记忆):Episodic memory 通常指存储特定事件、经历或上下文的记忆(如人类记忆中的个人经历,或 AI 中的对话历史记录)。Engram 基于 N-grams(短序列)的通用嵌入,不是针对特定 "episode" 的动态存储,而是预训练知识的静态检索。它更侧重于通用模式匹配,而不是个性化的时序事件回忆。 - 不是纯粹的 long-term memory(长期记忆):长期记忆在 AI 中常指持久存储的知识(如 parametric memory 中的模型权重,或 non-parametric memory 中的外部数据库)。Engram 可以视为长期记忆的扩展形式,因为它的哈希表是静态的、预构建的(类似于模型参数中的隐含知识),但它更专注于高效检索而非无限存储。它不处理运行时积累的长期交互历史,而是 offload 预存在模型中的 N-gram 模式,以支持 scaling 和 long-context 处理。 - 更接近 working memory 的 latent space cache + 基于 hash 的 retrieval:它本质上是一个分层(hierarchy)内存卸载系统,在 latent space(隐空间)中用哈希索引 N-gram 嵌入作为缓存,实现 O(1) 检索。这类似于 working memory 的临时缓冲区,用于当前输入的快速模式匹配和重建,而不是完整的长期存储。相比传统 MoE(Mixture of Experts),它引入了 "conditional memory" 作为第二个稀疏轴,平衡内存和计算,但不会像 episodic 或 full long-term memory 那样动态更新或存储新经验。实验结果显示,它在知识密集任务(如 MMLU)和推理任务(如 BBH)上提升性能,但仍局限于预训练数据的静态表示。
Est. 300 views for your reply
