RICHARD SUTTON
“失败不是终点,而是调整方向的信号。”
什么是强化学习?(RL)
传统编程:告诉机器每一步做什么。
监督学习:像背诵抽认卡,反馈是指导(告诉你标准答案)。但不影响世界。
强化学习:不要告诉机器怎么做,让机器通过与世界交互自己学会怎么做。反馈是评估(告诉你做的好不好),但不告诉你该怎么做。行动会影响世界。
给机器内置一个想要得到奖赏的冲动(欲望/目标)。
它得折腾这个世界,不仅是观察数据,还要采取行动影响环境。
自己去尝试、去失败、发现什么有效。
根据结果的奖惩调整策略,而不是依靠预先定义的答案。
苦涩的教训 (The Bitter Lesson, 2019)
从70年人工智能研究中能够读出的最大教训是:利用算力的通用方法最终是最有效的,而且优势极为显著。其根本原因在于摩尔定律,更准确地说,是单位计算成本持续呈指数级下降。
| 方法论对比 | 基于人类知识路线 (内建规则) | 搜索 + 学习路线 (计算力扩展) |
|---|---|---|
| 本质 | 试图将人类知识和思维方式内建到系统中(如语法规则、国际象棋的棋谱)。 | 只内建能够发现并捕捉世界极度复杂性的“元方法”。告诉Agent什么是好的。 |
| 短期效果 | 通常在初期见效快,而且让研究人员个人感到满足。 | 初期往往不如精心设计的人工规则,甚至看起来像“暴力穷举”。 |
| 长期表现 (随算力增加) | 遇到瓶颈,变得复杂且难以扩展。 | 能够无限扩展。不仅超越人类设计,甚至发现人类不曾发觉的规律(如AlphaGo)。 |
| 核心两大通用技术 | 规则树、逻辑推演、人工特征提取。 | 搜索 (Search) 与 学习 (Learning)。 |
“心智的实际内容是极其复杂的,复杂到无可救药;我们应该停止试图用简单的方式来理解心智的内容。我们希望人工智能体能够像我们一样去发现,而不是包含我们已经发现的东西。”
心智(Mind)与智能(Intelligence)的内核
智能是程度而非二元论。不是模仿人类,而是通过多变的手段达成一致目标的计算能力。如果一个系统能在多变的环境中始终指向某一目标,它就具有智能。
心智是一种计算过程,本质是一个**预测机器**。它在不断问:“如果我采取行动 A,会发生什么?”心智将宏大的物理力量简化为微小差异,做出目标导向的条件预测。
永远不要编写比你脑袋还大的程序。AI系统只有在能够亲自验证知识的范围内,才能真正创造和维护知识。AI通过独立探索并从环境得到反馈来完成闭环自验证。
预测误差 (TD Error) 与大脑中多巴胺神经元的放电模式完全一致。正误差代表惊喜,负误差代表失望。它是学习中驱使探索与利用的核心。
出生于俄亥俄州。童年频繁搬家。由于从小思考人类是怎么认知世界的,在高中时期接触计算机,迷上“机器如何学习”。
在麻省理工读博,并提出时间差分学习(TD learning),这一成果之后广泛用于计算机程序及强化学习,如后来战胜人类的 AlphaGo。
与恩师 Andy Barto 合著出版《强化学习:导论》(Reinforcement Learning: An Introduction),此书逐渐被奉为强化学习领域的“圣经”。
在 AT&T 工作时,被诊断出存活率极低的转移性黑色素瘤。癌症多次复发,他以“反正快死了”的心态接下加拿大阿尔伯塔大学教职,经历奇迹般的治疗后活了下来。
肿瘤未见复发。“看来我活下来了”,随后放弃美国籍成为加拿大公民,并加入 DeepMind 担任杰出研究科学家。
发表《The Bitter Lesson》(苦涩的教训),警醒学术界放弃手刻特征,全面拥抱以“搜索”与“学习”为代表的暴力算力路线。
加入 Keen Technologies,与 John Carmack 联手推进 AGI 通用人工智能之路。预测最有能在 2040 年实现 AGI。