🔥 Search Hot Tweets
Search and analyze hot tweets from KOL accounts list (list: https://x.com/i/lists/1961235697677017443) within 6 hours. Use SoPilot plugin to quickly comment and occupy the comment section.

向阳乔木
Dwarkesh Patel访谈亚当•马布尔斯通(Adam Marblestone)。 一位横跨神经科学、物理学的大牛,从脑科学角度看AI,感觉挺有趣的,让AI总结下。 大脑凭什么用20瓦就碾压AI? 一个三岁小孩,看过的图片、听过的对话,加起来的数据量可能连GPT-4训练集的零头都不到。 但这个小孩能做的事情,最先进的AI模型至今做不到。 他能理解因果关系,能从几个例子里学会新概念,能在从未见过的情境中灵活应对。 问题的核心不在数据量,而在学习效率。 大脑到底用了什么秘密武器? 计算机科学家设计损失函数时,追求的是数学上的简洁优雅。 "预测下一个词",多干净利落的目标。 但进化不是这样。 马布尔斯通说,进化在大脑里编写的损失函数,复杂得像成千上万行运行中的Python代码。 这些代码不是一次性全部激活的,而是在人类发育的不同阶段,像定时炸弹一样被逐个触发。 婴儿三个月大的时候,某段代码告诉视觉皮层要开始学习识别面孔。 六个月的时候,另一段代码启动,引导听觉系统开始区分母语的音素。 青春期的时候,又有新的代码被激活,让大脑开始格外关注社交地位和同伴评价。 这就是为什么人类婴儿能在数据量远少于AI的情况下,学习效率高出几个数量级。 大脑的秘密:双系统架构 要理解大脑的高效,得先搞清楚它的架构设计。 大脑不是一个系统,而是两个系统的精妙配合。 导向系统:进化的祖传代码 底层是导向子系统,藏在下丘脑、脑干、杏仁核这些古老的区域。 这套系统里装的都是硬编码的本能。 看到蜘蛛会本能地跳开,尝到甜味会感到愉悦,被群体排斥会感到羞耻。 不需要学习,出生就自带。 关键是,这套系统还自带一套原始感官。 比如上丘这个区域,它有自己独立的视觉系统,专门用来快速检测威胁。 当有什么东西在你视野边缘快速移动时,是上丘先做出反应,让你本能地闪避。 然后你的大脑皮层才慢悠悠地意识到"哦,那是个什么东西"。 单细胞RNA测序显示,导向系统里的细胞类型极其丰富,成千上万种。 每一种细胞都像是一个高度定制化的传感器,负责探测某个特定的生存信号。 学习系统:通用的预测引擎 顶层是学习子系统,主要就是大脑皮层。 皮层的结构相对简单,基本上就是六层架构在不同区域不断重复。 这种设计很像Transformer模型,你要增加计算能力,不需要重新发明算法,只需要堆更多层就行。 皮层的核心任务是构建世界模型。 它不停地观察、预测、修正。 看到云层变暗,预测会下雨。 听到脚步声,预测有人要进门。 闻到烟味,预测可能有火灾。 但这里有个绝妙的设计。 皮层不仅在预测外部世界,它还在拼命学习预测导向系统的反应。 两个系统如何配合? 这是进化面临一个难题。 它不可能预见未来会出现"播客"、"社交媒体"这些东西。 但它又需要让人类在未来的任何环境中都能生存。 怎么办? 进化的解决方案极其聪明。 它在导向系统里只编码最基本的生存本能。 比如"被群体排斥很可怕","获得他人认可很爽"。 这些本能够简单、够原始,不管环境怎么变都用得上。 然后让学习系统自己去发现,在当前的环境里,什么东西会触发这些本能。 举个例子。 导向系统里有个硬编码的恐惧反应,当看到"快速移动的小黑点"时会触发。 这在远古时代很有用,因为那可能是毒蜘蛛。 但学习系统会发现更多。 它会发现,当听到"蜘蛛"这个词的时候,导向系统的恐惧神经元也会有反应。 当看到蜘蛛的图片时,也会有反应。 甚至当阅读关于蜘蛛的文章时,也会有微弱的反应。 于是,学习系统把所有这些抽象的、符号化的信息,都跟导向系统的原始恐惧挂上了钩。 这种机制的威力在于泛化。 进化只需要在基因里写一条简单的规则:"对快速移动的小黑点产生恐惧"。 学习系统会自动把这条规则扩展到语言、图像、文字等所有相关的抽象概念上。 基因组只有3GB的信息量,但通过这种方式,它能驱动出远超其信息容量的复杂行为。 为什么导向系统需要这么多种细胞? 这里有个有趣的对比。 导向系统的细胞类型远远多于学习系统。 下丘脑里的细胞种类,比整个大脑皮层都要丰富。 为啥? 因为导向系统的功能是硬编码的。 要让某个本能反应精确运作,进化必须在基因层面规定好神经元之间的连接方式。 A神经元必须连到B神经元,C神经元必须连到D神经元。 这种精确的布线需要分子层面的标识。 不同的神经元需要表达不同的受体蛋白,就像每个零件上都贴着条形码,告诉它应该跟谁连接。 每一种特定的连接模式,通常就需要一种特定的细胞类型。 相比之下,学习系统靠的是可塑性。 皮层的神经元之间的连接不是预设的,而是通过学习动态调整的。 所以它不需要那么多种细胞类型,只需要一个通用的架构,加上强大的突触可塑性。 如果把大脑比作一台计算机,导向系统就像是主板上密密麻麻的专用芯片,每个芯片负责一个特定功能。 而学习系统则像是CPU,通用但强大,通过软件(学习)来实现各种功能。 全向推理:大脑比LLM聪明在哪里 大语言模型的工作方式很直接。 给它前面的文字,它预测下一个词。 这是一种单向的、固定的推理模式。 大脑皮层的工作方式完全不同。 马布尔斯通把它称为"全向推理引擎"。 意思是,大脑可以从任何已知的变量,推断出任何未知的变量。 你看到一个人的表情,可以推断他的情绪。 你听到一个声音,可以推断声源的位置。 更厉害的是,这些推理可以跨模态进行。 你听到玻璃破碎的声音,大脑会自动"看到"可能的画面。 你看到某个场景,大脑会自动"听到"可能的声音。 这种能力的底层机制是什么? 大脑皮层在学习所有感知变量的联合概率分布。 它不是在学习"如果A那么B",而是在学习"A、B、C、D、E这些变量之间的整体关系是什么"。 当你固定住其中几个变量(比如你看到的画面)。 大脑就通过神经元的天然随机性进行概率采样,推断出其他变量的可能状态(比如可能的声音、气味、触感)。 这就是为什么大脑在面对从未见过的情境时,依然能做出合理的推断。 它掌握的不是具体的案例,而是变量之间的深层关系。 人类大脑的功耗只有20瓦。 一个普通的LED灯泡都比它耗电。但它的计算能力,目前没有任何超级计算机能比。 秘密在存算一体 传统计算机架构最大的能耗浪费在哪里? 在内存和处理器之间搬运数据。 CPU要从内存读取数据,处理完再写回去。 这种来回搬运消耗了大量能量。 大脑没有这个问题。 神经元的突触既是存储单元,也是计算单元。 信息存在哪里,就在哪里处理。不需要搬运。 物理随机性 AI做概率采样的时候,需要用软件生成随机数。 这个过程很耗计算资源。 大脑的神经元天生就是随机的。 离子通道的开关本身就带有物理层面的随机性。 大脑直接利用这种物理随机性来做概率推理。 不需要用代码模拟,不需要额外计算,物理过程本身就是采样过程。 低电压、低频率 大脑的神经元放电频率只有200赫兹左右。 现代CPU的频率是几个GHz,差了几万倍。 但正是这种低频运行,让大脑可以使用极低的电压。 电压降低,功耗就呈平方级下降。 加上非结构化的稀疏性。 大脑里绝大部分神经元在任何时刻都是不活跃的。 只有很小一部分在放电。 这种稀疏激活模式,进一步降低了能耗。 这几个因素加在一起,造就了20瓦的奇迹。 如何让AI更像人类? 理解了大脑的工作原理,我们能从中学到什么? 有个很有意思的想法,叫"辅助损失函数"。 训练AI的时候,不仅要求它输出正确答案,还要求它的内部神经活动模式跟人类大脑保持一致。 具体怎么做? 用fMRI扫描人类大脑,记录下人在看到某个物体时,各个脑区的激活模式。 然后训练AI,让它在处理同样物体时,内部的激活模式也尽量接近人类大脑。 好处是什么? 它能让AI学到更接近人类的表征几何结构。 人类大脑对世界的理解,不仅仅是统计规律,还包含了大量进化积累的先验知识。 通过模仿大脑的激活模式,AI可能也能学到这些先验知识。 而且,这种方法还能提高AI的鲁棒性。 现在的AI模型很容易被对抗样本攻击,一个人类完全看不出区别的微小扰动,就能让AI做出错误判断。 如果AI的表征结构跟人类大脑一致,它可能也会获得类似人类的鲁棒性。 多损失函数的训练 大脑在学习的时候,不是只优化一个目标。 导向系统给皮层设定了成千上万个不同的学习任务。 有些任务是预测视觉输入,有些是预测听觉输入,有些是预测社交反馈,有些是预测身体状态。 这种多任务学习,可能是大脑高效的关键。 现在的AI训练,通常就是优化一个损失函数。 也许我们应该学习大脑,设计更复杂的、多层次的损失函数体系。 连接组学:神经科学的哈勃望远镜 要真正理解大脑,光有理论不够。 我们需要看到大脑的真实结构。 每个神经元连接到哪些神经元,用的是什么类型的突触,表达的是什么分子标记。 这就是连接组学要做的事。 马布尔斯通把它比作神经科学的哈勃望远镜。 哈勃望远镜不是为了某个特定的天文发现,而是为所有天文学家提供一个共享的观测平台。 连接组学也一样。 一旦我们有了完整的大脑连接图谱,所有关于大脑工作原理的理论,都可以用这个图谱来验证。 那些跟物理事实不符的理论,会被直接排除。 问题是成本。 早期估计,绘制一个小鼠大脑的完整连接组,可能需要几十亿美元。 这个成本太高了,没有哪个实验室能承担。 但技术在进步。 通过光学显微镜和分子标注技术,成本正在快速下降。 马布尔斯通的团队认为,可以把成本降到几千万美元的级别。 一旦达到这个成本,连接组学就能成为神经科学的标准工具。 就像基因测序一样,从天价变成常规操作。 Lean语言:数学和AI安全的新基础 在数学研究领域,也有类似的革命在发生。 Lean是一种形式化证明语言。它能把数学证明转化成计算机可以验证的代码。 这有什么用? 传统的数学证明,需要人类专家来审查。但人类会犯错,会遗漏细节,会被复杂的推理绕晕。 Lean不会。 只要你用Lean写出证明,计算机就能立即告诉你,这个证明是对是错。 不需要等待审稿人,不需要担心遗漏,绝对的精确。 这为AI提供了完美的训练信号。 AI在学习数学推理的时候,最大的困难是缺乏明确的反馈。 一个证明是否正确,往往需要人类专家来判断。 但有了Lean,AI可以自己尝试各种证明路径,立即得到对错反馈。 这就像AlphaGo学围棋一样,有明确的胜负信号。 AlphaProof这样的系统,已经开始利用Lean来学习数学证明。 它在某些数学竞赛题目上,已经达到了金牌选手的水平。 更重要的是AI安全。 通过Lean,我们可以为软件编写数学证明,确保它在逻辑上是绝对安全的。 不是通过测试来发现bug,而是通过数学证明来保证不存在bug。 这种"可证明安全"的软件,在未来可能成为关键基础设施的标准要求。 写在最后 我们对大脑的理解,每深入一寸,AI的天花板就可能抬升一尺。 大脑用了几亿年进化出来的架构,不是随便设计出来的。每一个看似奇怪的特征,背后都有深刻的道理。 比如,导向系统和学习系统的分离,解决了先天和后天的平衡问题。 存算一体和物理随机性,达到了极致的能效比。 ... 这些设计原则,都值得AI研究者认真学习。 但同时也要意识到,大脑不是完美的。 它不能被复制,不能被随机访问,不能被精确调试。 所以,我们不是要完全复制大脑,而是要理解它的设计原则,然后在数字世界里找到对应的实现方式。 就像进化教给我们的那样,好的架构,胜过一切。 ---
Est. 100 views for your reply
