RICHARD SUTTON

“失败不是终点，而是调整方向的信号。”

AI Researcher / 强化学习之父 / AGI 探索者

#强化学习 #TheBitterLesson #心智即预测

REINFORCEMENT_LEARNING

传统编程：告诉机器每一步做什么。

监督学习：像背诵抽认卡，反馈是指导（告诉你标准答案）。但不影响世界。

强化学习：不要告诉机器怎么做，让机器通过与世界交互自己学会怎么做。反馈是评估（告诉你做的好不好），但不告诉你该怎么做。行动会影响世界。

1. 目标 (Reward)

给机器内置一个想要得到奖赏的冲动（欲望/目标）。

2. 交互 (Interact)

它得折腾这个世界，不仅是观察数据，还要采取行动影响环境。

3. 试错 (Trial & Error)

自己去尝试、去失败、发现什么有效。

4. 评估 (Evaluative Feedback)

根据结果的奖惩调整策略，而不是依靠预先定义的答案。

“机器不只是一个答题器，而是一个有目标的行动者。像生物一样，内置一个想要得到奖赏的冲动。他为了那个奖赏，自己去尝试、去失败、最后发现可行方法。”

THE_BITTER_LESSON

从70年人工智能研究中能够读出的最大教训是：利用算力的通用方法最终是最有效的，而且优势极为显著。其根本原因在于摩尔定律，更准确地说，是单位计算成本持续呈指数级下降。

方法论对比	基于人类知识路线 (内建规则)	搜索 + 学习路线 (计算力扩展)
本质	试图将人类知识和思维方式内建到系统中（如语法规则、国际象棋的棋谱）。	只内建能够发现并捕捉世界极度复杂性的“元方法”。告诉Agent什么是好的。
短期效果	通常在初期见效快，而且让研究人员个人感到满足。	初期往往不如精心设计的人工规则，甚至看起来像“暴力穷举”。
长期表现 (随算力增加)	遇到瓶颈，变得复杂且难以扩展。	能够无限扩展。不仅超越人类设计，甚至发现人类不曾发觉的规律（如AlphaGo）。
核心两大通用技术	规则树、逻辑推演、人工特征提取。	搜索 (Search) 与学习 (Learning)。

“心智的实际内容是极其复杂的，复杂到无可救药；我们应该停止试图用简单的方式来理解心智的内容。我们希望人工智能体能够像我们一样去发现，而不是包含我们已经发现的东西。”

MIND_AS_CONDITIONAL_PREDICTION

什么是智能？

智能是程度而非二元论。不是模仿人类，而是通过多变的手段达成一致目标的计算能力。如果一个系统能在多变的环境中始终指向某一目标，它就具有智能。

什么是心智？

心智是一种计算过程，本质是一个**预测机器**。它在不断问：“如果我采取行动 A，会发生什么？”心智将宏大的物理力量简化为微小差异，做出目标导向的条件预测。

可验证性 (Verification)

永远不要编写比你脑袋还大的程序。AI系统只有在能够亲自验证知识的范围内，才能真正创造和维护知识。AI通过独立探索并从环境得到反馈来完成闭环自验证。

多巴胺系统与 TD 误差

预测误差 (TD Error) 与大脑中多巴胺神经元的放电模式完全一致。正误差代表惊喜，负误差代表失望。它是学习中驱使探索与利用的核心。

AI 不是奇怪的外星事物，而是关于理解心智的人文学科。探索思维和理解的本质，这是柏拉图关心的经典问题。

SYSTEM_LOG

1957

出生于俄亥俄州。童年频繁搬家。由于从小思考人类是怎么认知世界的，在高中时期接触计算机，迷上“机器如何学习”。

1984

在麻省理工读博，并提出时间差分学习（TD learning），这一成果之后广泛用于计算机程序及强化学习，如后来战胜人类的 AlphaGo。

1998

与恩师 Andy Barto 合著出版《强化学习：导论》（Reinforcement Learning: An Introduction），此书逐渐被奉为强化学习领域的“圣经”。

2003

在 AT&T 工作时，被诊断出存活率极低的转移性黑色素瘤。癌症多次复发，他以“反正快死了”的心态接下加拿大阿尔伯塔大学教职，经历奇迹般的治疗后活了下来。

2017

肿瘤未见复发。“看来我活下来了”，随后放弃美国籍成为加拿大公民，并加入 DeepMind 担任杰出研究科学家。

2019

发表《The Bitter Lesson》（苦涩的教训），警醒学术界放弃手刻特征，全面拥抱以“搜索”与“学习”为代表的暴力算力路线。

2024

加入 Keen Technologies，与 John Carmack 联手推进 AGI 通用人工智能之路。预测最有能在 2040 年实现 AGI。