🔥 Search Hot Tweets
Search and analyze hot tweets from KOL accounts list (list: https://x.com/i/lists/1961235697677017443) within 6 hours. Use SoPilot plugin to quickly comment and occupy the comment section.

宝玉
很多人误解了 AK(Andrej Karpathy)在唱衰强化学习(RL),他本意不是说要‘换掉’RL! AK 的核心意思是,开发先进的 AI 并不是一道“单选题”,不是说有了A就不要B。这更像是在做一块多层大蛋糕,每一层都有自己的作用,而且必须按顺序叠加上去: 第1层(蛋糕底座): 这是最原始的基础模型。它很强大,但只会傻傻地“接话茬”(自动补全)。 第2层(涂奶油): 我们用“指令微调”(SFT)来训练它。这一步是给蛋糕打底、塑形,教会模型听懂人类的命令,扮演一个“助手”的角色。 第3层(裱花与点缀): 这就是“强化学习”(RL)的活儿。这是精加工!RL 能剔除模型的坏毛病,比如防止它胡说八道(幻觉)或卡壳复读。更牛的是,RL能“点化”模型,让它学会真正的推理,做出像AlphaGo“神之一手”那样惊艳的、SFT很难教会的深度思考。 第3层(RL)非常棒,但这个蛋糕还没做完! RL 是通往 AGI(通用人工智能)路上必不可少的一层,但它不是最后一层。我们必须在 RL 的基础上,接着去研究第4层、第5层、第6层……(虽然我们还不知道它们具体是什么)。 ------ Andrej Karpathy:我非常希望你继续研究强化学习(RL)! 我觉得,大家可能误会了,以为我建议用什么东西来‘取代’强化学习。这可不对,我之前试着澄清过,但显然没说清楚。我的意思是,它们是一层一层叠加的。 - 第1层,是基础模型的自动补全(base model autocomplete)。 - 第2层,是指令微调(SFT, instruct finetuning),这能让模型学会扮演‘助手’的角色(就像InstructGPT论文里做的那样)。 - 第3层,就是强化学习(RL)。 它让我们能够反过来优化模型的‘采样循环’(注:可以理解为优化模型的“思考”和“输出”过程),赶走那些讨人厌的行为,比如胡说八道(hallucinations)、卡壳复读(stuck repetition loops)。 更重要的是,它能激发那些光靠指令微调(SFT)很难教会模型的行为,比如推理能力——就像(AlphaGo的)‘第37手’(注:指AlphaGo下出超越人类理解的“神之一手”,代表了超越常规训练数据的、深层次的“领悟”)那样的表现。 我认为,在通往最终解决方案的路上,上面说的每一层都会保留下来,成为一个必要的阶段。但我想说的是,我们还需要更多的层和新的点子——第4N层、第5层、第6层,等等。 在最终的AGI(通用人工智能)配方里,强化学习绝对是其中一环。就像我们人类也会在各种行为中用到强化学习一样,它只是我们工具箱里一个强大的工具罢了。
Est. 8.5K views for your reply