[ REINFORCEMENT_LEARNING ] [ 2025_TURING_AWARD ]

RICHARD SUTTON

“失败不是终点,而是调整方向的信号。”

AI Researcher / 强化学习之父 / AGI 探索者
#强化学习 #TheBitterLesson #心智即预测
REINFORCEMENT_LEARNING

什么是强化学习?(RL)

传统编程:告诉机器每一步做什么。

监督学习:像背诵抽认卡,反馈是指导(告诉你标准答案)。但不影响世界。

强化学习:不要告诉机器怎么做,让机器通过与世界交互自己学会怎么做。反馈是评估(告诉你做的好不好),但不告诉你该怎么做。行动会影响世界。

1. 目标 (Reward)

给机器内置一个想要得到奖赏的冲动(欲望/目标)。

2. 交互 (Interact)

它得折腾这个世界,不仅是观察数据,还要采取行动影响环境。

3. 试错 (Trial & Error)

自己去尝试、去失败、发现什么有效。

4. 评估 (Evaluative Feedback)

根据结果的奖惩调整策略,而不是依靠预先定义的答案。

“机器不只是一个答题器,而是一个有目标的行动者。像生物一样,内置一个想要得到奖赏的冲动。他为了那个奖赏,自己去尝试、去失败、最后发现可行方法。”
THE_BITTER_LESSON

苦涩的教训 (The Bitter Lesson, 2019)

从70年人工智能研究中能够读出的最大教训是:利用算力的通用方法最终是最有效的,而且优势极为显著。其根本原因在于摩尔定律,更准确地说,是单位计算成本持续呈指数级下降。

方法论对比 基于人类知识路线 (内建规则) 搜索 + 学习路线 (计算力扩展)
本质 试图将人类知识和思维方式内建到系统中(如语法规则、国际象棋的棋谱)。 只内建能够发现并捕捉世界极度复杂性的“元方法”。告诉Agent什么是好的。
短期效果 通常在初期见效快,而且让研究人员个人感到满足。 初期往往不如精心设计的人工规则,甚至看起来像“暴力穷举”。
长期表现 (随算力增加) 遇到瓶颈,变得复杂且难以扩展。 能够无限扩展。不仅超越人类设计,甚至发现人类不曾发觉的规律(如AlphaGo)。
核心两大通用技术 规则树、逻辑推演、人工特征提取。 搜索 (Search) 与 学习 (Learning)。

“心智的实际内容是极其复杂的,复杂到无可救药;我们应该停止试图用简单的方式来理解心智的内容。我们希望人工智能体能够像我们一样去发现,而不是包含我们已经发现的东西。”

MIND_AS_CONDITIONAL_PREDICTION

心智(Mind)与智能(Intelligence)的内核

什么是智能?

智能是程度而非二元论。不是模仿人类,而是通过多变的手段达成一致目标的计算能力。如果一个系统能在多变的环境中始终指向某一目标,它就具有智能。

什么是心智?

心智是一种计算过程,本质是一个**预测机器**。它在不断问:“如果我采取行动 A,会发生什么?”心智将宏大的物理力量简化为微小差异,做出目标导向的条件预测。

可验证性 (Verification)

永远不要编写比你脑袋还大的程序。AI系统只有在能够亲自验证知识的范围内,才能真正创造和维护知识。AI通过独立探索并从环境得到反馈来完成闭环自验证。

多巴胺系统与 TD 误差

预测误差 (TD Error) 与大脑中多巴胺神经元的放电模式完全一致。正误差代表惊喜,负误差代表失望。它是学习中驱使探索与利用的核心。

AI 不是奇怪的外星事物,而是关于理解心智的人文学科。探索思维和理解的本质,这是柏拉图关心的经典问题。
SYSTEM_LOG
1957

出生于俄亥俄州。童年频繁搬家。由于从小思考人类是怎么认知世界的,在高中时期接触计算机,迷上“机器如何学习”。

1984

在麻省理工读博,并提出时间差分学习(TD learning),这一成果之后广泛用于计算机程序及强化学习,如后来战胜人类的 AlphaGo。

1998

与恩师 Andy Barto 合著出版《强化学习:导论》(Reinforcement Learning: An Introduction),此书逐渐被奉为强化学习领域的“圣经”。

2003

在 AT&T 工作时,被诊断出存活率极低的转移性黑色素瘤。癌症多次复发,他以“反正快死了”的心态接下加拿大阿尔伯塔大学教职,经历奇迹般的治疗后活了下来。

2017

肿瘤未见复发。“看来我活下来了”,随后放弃美国籍成为加拿大公民,并加入 DeepMind 担任杰出研究科学家。

2019

发表《The Bitter Lesson》(苦涩的教训),警醒学术界放弃手刻特征,全面拥抱以“搜索”与“学习”为代表的暴力算力路线。

2024

加入 Keen Technologies,与 John Carmack 联手推进 AGI 通用人工智能之路。预测最有能在 2040 年实现 AGI。