强化学习简史：从奖励一只鸽子说起

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：DeepTech深科技）

1943 年，当世界上最顶尖的物理学家们在为“曼哈顿计划”（Manhattan Project）分裂原子时，美国心理学家 B.F. 斯金纳（B.F. Skinner）也领导着他自己的秘密政府项目，旨在赢得第二次世界大战。

斯金纳的目标并非要制造一种更大、更具毁灭性的新型武器。相反，他希望让常规炸弹变得更加精准。这个想法是在他乘坐火车去参加一次学术会议的途中，凝视窗外时迸发的。“我看到一群鸟儿在火车旁飞翔，时而盘旋，时而成群结队，”他写道，“我突然意识到，它们是拥有卓越视觉和机动性的‘装置’。难道它们不能引导一枚导弹吗？”

斯金纳最初用乌鸦进行导弹研究，但这些聪明的黑色鸟类难以驯服。于是，他去了一家向中餐馆出售鸽子的本地商店，自此，“白鸽计划”（Project Pigeon）诞生了。尽管普通家鸽（学名 Columba livia）在人们印象中并不聪明，但它们在实验室里却表现出惊人的合作性。

斯金纳通过奖励食物的方式，训练鸽子啄食航空照片上的正确目标。他最终计划将这些鸟儿绑在弹头的鼻锥部的一个装置里，通过啄食一个由透镜投射到屏幕上的实时图像目标，来引导弹头的方向。

（来源：B.F.斯金纳基金会）

军方最终没有部署斯金纳的“神风特攻队”鸽子，但这些实验使他相信，鸽子是研究学习过程基本原理的“一种极其可靠的工具”。“我们使用鸽子，不是因为它是一种聪明的鸟，而是因为它是一种实用的鸟，可以被改造成一部机器，”他在 1944 年说道。

在寻找人工智能的先驱时，人们常常会提到像艾萨克·阿西莫夫（Isaac Asimov）这样的科幻作家，或是如图灵测试（Turing test）这样的思想实验。但一个同样重要，却出人意料且鲜为人知的前身，是斯金纳在 20 世纪中叶对鸽子的研究。斯金纳认为，联想——通过试错学习，将行动与惩罚或奖励联系起来——是所有行为的基础，不仅限于鸽子，而是包括人类在内的所有生物。他的“行为主义”（behaviorist）理论在 1960 年代被心理学家和动物研究者所冷落，但却被计算机科学家们所采纳，并最终为许多来自谷歌（Google）和 OpenAI 等顶尖公司的人工智能工具奠定了基础。

这些公司的程序正越来越多地采用一种机器学习，其核心概念——强化——直接源自斯金纳的心理学派。这一学派的主要构建者，计算机科学家理查德·萨顿（Richard Sutton）和安德鲁·巴托（Andrew Barto），赢得了 2024 年的图灵奖，这一奖项被广泛认为是计算机科学界的诺贝尔奖。强化学习（Reinforcement learning）使得计算机能够驾驶汽车、解决复杂的数学问题，并在国际象棋和围棋等游戏中击败顶尖大师——但它并非通过模仿人类心智的复杂运作来实现这一切，而是通过极大地强化鸽子大脑中简单的联想过程。

萨顿曾写道，这是 70 年人工智能研究得出的一个“惨痛教训”：人类智能并非机器学习的有效模型——相反，正是这种基础的联想学习原则，驱动着那些现在能够在各种任务上模拟甚至超越人类的算法。如果人工智能真的像许多人担心的那样，即将摆脱其创造者的束缚，那么我们的计算机霸主可能不会像我们自己，而更像是“长着翅膀的老鼠”——拥有行星般大小的大脑。即便事实并非如此，鸽子的大脑至少也能帮助我们揭开这项令许多人担忧（或欣喜）其正“变得人性化”的技术的神秘面纱。

反过来，人工智能近期的成就也正促使一些动物研究者重新思考自然智能的演化。斯德哥尔摩大学（Stockholm University）的生物学家约翰·林德（Johan Lind ）曾撰文描述“联想学习悖论”（associative learning paradox）：生物学家们普遍认为这个过程过于简单，无法在动物身上产生复杂的行为，但当它在计算机上产生类人行为时，却备受赞誉。这项研究不仅表明，联想学习在黑猩猩和乌鸦等聪明动物的生活中扮演着更重要的角色，而且也揭示了像普通原鸽这类长期被我们视为头脑简单的动物，其生活远比我们想象的要复杂得多。

当萨顿开始从事人工智能研究时，他感觉自己有个“秘密武器”。他告诉我，他本科时学过心理学。“我当时正在挖掘关于动物的心理学文献，”他说。

（来源：B.F.斯金纳基金会）

19 世纪末，伊凡·巴甫洛夫（Ivan Pavlov）在他著名的“经典条件反射”（classical conditioning）实验中，开始揭示联想学习的机制。他证明了，如果一个中性刺激——比如铃声或闪光灯——与食物的出现可预测地配对，狗就会对这个中性刺激产生流涎反应。20 世纪中叶，斯金纳继承并扩展了巴甫洛夫的条件反射原理，将其从动物的非自愿反射行为延伸至其整体行为。

斯金纳写道，“行为是由其后果塑造和维持的”——一个随机的行动如果带来了理想的结果，比如按下一个杠杆会释放一个食物丸，那么这个行为就会被“强化”，从而使动物更有可能重复它。斯金纳通过一步步强化他实验动物的行为，教会老鼠操纵弹珠，让鸽子在四键钢琴上弹奏简单的曲调。这些动物通过试错学会了一系列行为链，以最大化长期奖励。斯金纳认为，这种他称之为“操作性条件反射”（operant conditioning）（其他心理学家称之为“工具性学习”）的联想学习，是所有行为的基石。他相信心理学应该只研究那些可以被观察和测量的行为，而无需涉及任何内在的“心智主体”。

斯金纳认为，甚至人类语言也是通过操作性条件反射发展的，儿童通过强化来学习词语的意义。但他 1957 年关于该主题的著作《言语行为》（Verbal Behavior）遭到了诺姆·乔姆斯基（Noam Chomsky）的猛烈批评，此后心理学的焦点开始从可观察的行为转向人类心智固有的“认知”能力，如逻辑和符号思维。生物学家们也很快反抗行为主义，他们攻击心理学家试图用一种基本且普适的机制来解释动物行为多样性的做法。他们认为，每个物种都演化出了适应其栖息地和生活方式的特定行为，并且大多数行为是遗传的，而非后天习得的。

到了 70 年代，当萨顿开始阅读关于斯金纳及类似实验的文献时，许多对智能感兴趣的心理学家和研究者已经从主要通过联想学习的“小脑袋”鸽子，转向了那些行为更复杂、暗示具有潜在认知能力的大脑动物。“这显然是陈旧的东西，不再让人们感到兴奋了，”他告诉我。尽管如此，萨顿发现这些旧实验对机器学习具有启发意义：“我带着一种动物学习理论者的思维方式进入人工智能领域，却发现工程学中几乎没有任何类似工具性学习的东西。”

在 20 世纪下半叶，许多工程师试图以人类智能为模型来构建人工智能，他们编写复杂的程序，试图模仿人类思维并实现支配人类反应和行为的规则。这种通常被称为“符号 AI”（symbolic AI）的方法受到了严重限制；这些程序在处理对人类来说轻而易举的任务时，比如识别物体和文字，却举步维艰。要将人类用来区分苹果和橙子或猫和狗的无数分类规则写入代码，根本是不可能的——而没有模式识别，像问题解决、游戏和语言翻译这样更复杂任务的突破也似乎遥遥无期。正如 AI 怀疑论者休伯特·德雷福斯（Hubert Dreyfus）在 1972 年所写的，这些计算机科学家们所取得的成就不过是“一次小小的工程胜利，一个针对特定问题的临时解决方案，缺乏普遍适用性。”

然而，关于鸽子的研究暗示了另一条路径。1964 年的一项研究表明，鸽子可以学会区分包含人物的照片和不包含人物的照片。研究人员只是向鸟儿展示一系列图像，当它们啄食一张有人出现的图像时，就用一颗食物丸作为奖励。它们起初是随机啄食，但很快就学会了识别正确的图像，包括那些人物被部分遮挡的照片。这个结果表明，你不需要规则来分类物体；仅通过联想学习，就有可能学习概念和使用类别。

（来源：GETTY IMAGES）

当萨顿在 70 年代末开始与巴托合作研究 AI 时，他们想要创造一个“完整的、交互式的、寻求目标的智能体”，能够像鸽子或老鼠一样探索并影响其环境。“我们一直觉得，我们研究的问题更接近动物在进化中为生存所必须面对的问题，”巴托告诉我。这个智能体需要两个主要功能：搜索，即在特定情境下尝试并从众多行动中进行选择；以及记忆，即将一个行动与它带来奖励的情境联系起来。萨顿和巴托将他们的方法称为“强化学习”；正如萨顿所说，“它基本上就是工具性学习。”1998 年，他们在一本书《强化学习导论》（Reinforcement Learning: An Introduction）中，对这一概念进行了系统阐述。

在接下来的二十年里，随着计算能力的指数级增长，对 AI 进行日益复杂的任务训练成为可能——这本质上就是让 AI“鸽子”经历数百万次更多的试验。

结合了人类输入和强化学习的程序在国际象棋和雅达利（Atari）游戏中击败了人类专家。随后，在 2017 年，谷歌 DeepMind 的工程师们完全通过强化学习构建了 AI 程序 AlphaGo Zero。他们为它赢的每一盘围棋比赛设定 +1 的数值奖励，输的每一盘则为 -1。这个程序被设定为寻求最大化奖励，它在没有任何围棋知识的情况下开始，但在 40 天内不断改进，最终达到了其创造者所称的“超人”表现。它不仅能击败世界上最优秀的围棋人类选手——这场比赛被认为比国际象棋更为复杂——而且实际上开创了职业棋手现在使用的新策略。

“人类在数千年的时间里，通过数百万盘棋局积累了围棋知识，”该程序的构建者在 2017 年的《自然》（Nature）杂志上写道。“在几天之内，从一张白纸（tabula rasa）开始，AlphaGo Zero 不仅能够重新发现大部分这些围棋知识，还开创了为这场最古老的游戏提供新见解的新颖策略。”该团队的首席研究员是戴维·西尔弗（David Silver），他曾在阿尔伯塔大学（University of Alberta）师从萨顿学习强化学习。

如今，越来越多的科技公司已将强化学习应用于面向消费者的聊天机器人和智能体等产品中。第一代生成式 AI，包括像 OpenAI 的 GPT-2 和 GPT-3 这样的大语言模型（LLM, Large Language Models），利用了一种更简单的联想学习形式，称为“监督学习”（supervised learning），即在由人类标记的数据集上训练模型。程序员们通常使用强化学习来微调结果，他们会请人们对程序的表现进行评分，然后将这些评分作为目标反馈给程序以供其追求。（研究人员称之为“基于反馈的强化学习”。）

去年秋天，OpenAI 公布了其 o 系列大语言模型，并将其归类为“推理”模型。这家开创性的 AI 公司宣称，这些模型“通过强化学习进行训练以执行推理”，并声称它们能够进行“长时程的内部思维链”。中国初创公司 DeepSeek 也使用强化学习来训练其引人注目的“推理”LLM，R1。“我们不是明确地教模型如何解决问题，而只是为它提供正确的激励，它就能自主地发展出先进的问题解决策略，”他们解释道。

这些描述可能会给用户留下深刻印象，但至少在心理学上，它们是含糊不清的。一个基于强化学习训练的计算机，只需要搜索和记忆，而不需要推理或任何其他认知机制，就能形成联想并最大化奖励。一些计算机科学家批评了将这些模型“思考”拟人化的倾向，一个苹果公司的工程师团队最近发表了一篇论文，指出了它们在某些复杂任务上的失败，并“对其真实的推理能力提出了关键问题”。

萨顿在一封电子邮件中也把关于推理的说法斥为“市场营销”，并补充说，“没有一个严肃的心智学者会用‘推理’来描述 LLM 中发生的事情。”尽管如此，他与西尔弗及其他合著者一同指出，鸽子的方法——通过试错学习哪些行为会产生奖励——足以“驱动展现出自然和人工智能领域中研究的大多数甚至所有能力的行为”，包括人类语言“以其全部的丰富性”。

在四月份发表的一篇论文中，萨顿和西尔弗指出，“当今的技术，只要有恰当选择的算法，已经为 AI 迅速迈向真正超人智能体提供了足够强大的基础。”他们认为，关键在于构建的 AI 智能体要比 LLM 更少地依赖人类对话和偏见来指导其行为。

“强大的智能体应该拥有自己的经验流，像人类一样，在漫长的时间尺度上不断发展，”他们写道。“最终，经验数据将在规模和质量上超越人类生成的数据。这种范式转变，伴随着强化学习算法的进步，将在许多领域解锁超越任何人类所拥有的新能力。”

如果计算机仅凭一个类似鸽子的大脑就能做到这一切，一些动物研究者现在开始思考，真正的鸽子是否也应得到比通常更多的赞誉。

“当考虑到 AI 的成就时，将联想学习扩展到据称更复杂的认知表现形式，为理解生物系统如何演化提供了新的前景，”爱荷华大学（University of Iowa）的心理学家埃德·沃瑟曼（Ed Wasserman）在最近发表于《当代生物学》（Current Biology）杂志的一项研究中写道。

在一项实验中，沃瑟曼训练鸽子成功完成了一项复杂的分类任务，而几名本科生却失败了。学生们徒劳地试图找到一个规则来帮助他们分类那些带有不同宽度和倾斜度平行黑线的圆盘；而鸽子们只是通过练习和联想，形成了一种感觉，判断任何给定的圆盘属于哪个组。

和萨顿一样，沃瑟曼也是在斯金纳的理论失宠时对行为主义心理学产生了兴趣。但他没有转向计算机科学，而是坚持研究鸽子。“鸽子生死都依赖于这些非常基础的学习规则，”沃瑟曼最近告诉我，“但这些规则已经足够强大，让它们在物体识别方面取得了巨大的成功。”在他最著名的实验中，沃瑟曼训练鸽子在医学扫描中检测癌变组织和心脏病症状，其准确度堪比办公桌后挂着镶框文凭的资深医生。鉴于他的研究结果，沃瑟曼觉得奇怪的是，如此多的心理学家和行为生态学家将联想学习视为一种粗糙、机械的机制，无法产生像猿、大象、海豚、鹦鹉和乌鸦等聪明动物的智能。

在 AI 开始在复杂游戏中战胜人类专家之后，其他研究人员也开始重新思考联想学习在动物行为中的作用。“随着本质上建立在联想过程之上的人工智能取得进展，联想学习被认为过于简单且不足以产生生物智能，这变得越来越讽刺，”斯德哥尔摩大学的生物学家林德在 2023 年写道。他经常在他的生物学研究中引用萨顿和巴托的计算机科学，并且他相信，真正将人类置于其自身认知类别的是人类的符号语言和累积文化。

行为生态学家通常提出认知机制，如心理理论（theory of mind，即把精神状态归因于他人的能力），来解释像社会学习和工具使用这样非凡的动物行为。但林德建立了模型，表明这些灵活的行为可能是通过联想学习发展而来的，这表明可能根本无需援引认知机制。如果动物学会将一种行为与奖励联系起来，那么该行为本身就会逐渐趋近于奖励的价值。然后，一个新的行为可以与第一个行为相关联，从而让动物学习最终导致奖励的一系列行为链。在林德看来，展示黑猩猩和渡鸦自我控制和规划能力的研究，很可能描述的是通过经验获得的行为，而非心灵的内在机制。

林德对他所称的“动物认知研究中被接受的低标准”感到沮丧。正如他在一封电子邮件中写的，“这个领域的许多研究人员似乎不担心排除其他假设，他们乐于忽视大量当前和历史的知识。”不过，有迹象表明他的论点正在获得关注。一群与林德无关联的心理学家去年在批评一项《当代生物学》的研究时，引用了他的“联想学习悖论”。该研究声称乌鸦在一次实验中使用了“真正的统计推断”，而非“低级联想学习策略”。这些心理学家发现，他们可以用一个简单的强化学习模型来解释乌鸦的表现——“正是[原作者]排除了的那种低级联想学习过程。”

斯金纳或许会为这些论点感到欣慰。直到 1990 年去世前，他一直对心理学的认知转向感到惋惜，坚称探索生物思想是科学上不负责任的。在“白鸽计划”之后，他越来越痴迷于用“行为主义”的方案解决社会问题。他从为战争训练鸽子转向了像“育儿箱”（Air Crib）这样的发明，旨在通过将婴儿置于一个气候可控的玻璃室中，消除对衣物和被褥的需求，从而“简化”育儿。斯金纳否定自由意志，认为人类行为是由环境变量决定的，并写了一部名为《瓦尔登湖二号》（Walden II）的小说，讲述了一个建立在他理念上的乌托邦社区。

关心动物权益的人可能会对行为主义理论的复兴感到不安。“认知革命”打破了几个世纪以来强调人类至上、将其他生物视为刺激-反应机器的西方思维传统。但主张动物通过联想学习，与主张它们头脑简单并非一回事。像林德和沃瑟曼这样的科学家并不否认本能和情感等内在力量也会影响动物行为。萨顿也相信，动物通过经验建立世界模型，并用它们来规划行动。他们的观点不是说智能动物是空洞的，而是说联想学习是一种比许多同行所认为的更强大——实际上是“认知性”的——机制。最近批评关于乌鸦和统计推断研究的心理学家们并没有得出鸟类愚蠢的结论。相反，他们认为“一个强化学习模型可以产生复杂、灵活的行为。”

这很大程度上与另一位心理学家罗伯特·雷斯科拉（Robert Rescorla）的研究相符，他在 70 和 80 年代的工作影响了沃瑟曼和萨顿。雷斯科拉鼓励人们不要把联想看作一个“低级的机械过程”，而应看作是“因暴露于环境中事件之间的关系而产生的学习”，以及“生物体表征其世界结构的主要方式”。

这甚至适用于一只在小型实验箱中啄食屏幕和按钮的实验室鸽子，科学家在那里仔细控制和测量刺激与奖励。但鸽子的学习延伸到了实验箱之外。沃瑟曼的学生用桶在鸟舍和实验室之间运送鸽子——经验丰富的鸽子只要学生一打开门就会立刻跳进桶里。正如雷斯科拉所暗示的，它们正在学习它们世界内部的结构及其各部分之间的关系，比如桶和实验箱，尽管它们并不总是知道进去后会面临什么具体任务。

通过同样的联想机制，鸽子学习其世界的结构，这也能为了解斯金纳和许多早期心理学家所否认的那种内心生活打开一扇窗。药物研究人员长期以来在药物辨别任务中使用鸽子，例如，给它们服用安非他明或镇静剂，并因其正确识别所服药物而奖励食物丸。鸟类的成功表明它们既能体验也能辨别内部状态。“这难道不等于内省吗？”沃瑟曼问道。

很难想象 AI 能在这项特定任务上与鸽子匹敌——这提醒我们，尽管 AI 和动物共享联想机制，但生命远不止于行为与学习。

一只鸽子理应被视为一个生命体而受到伦理关怀，不是因为它如何学习，而是因为它有何感受。鸽子能够体验痛苦和苦难，而 AI 聊天机器人则不能——即使一些大型语言模型，因其训练语料库包含了对人类苦难的描述和关于有感知能力的计算机的科幻故事，能够欺骗人们相信它们可以。

“近年来对 AI 研究的密集公共和私人投资，催生了迫使我们直面 AI 感知问题的技术，”两位科学哲学家在 2023 年于《永世》（Aeon）杂志上写道。

“要回答这些当前的问题，我们需要在动物认知和行为研究上投入同等程度的资源。”事实上，由于 AI 的出现，比较心理学家和动物研究人员长期以来努力解决的问题突然变得紧迫起来：我们如何将感知能力赋予其他生物？我们如何区分真实的感知和一场令人信服的感知表演？

这样的努力不仅会带来关于技术和动物的知识，也会带来关于我们自身的知识。大多数心理学家可能不会像萨顿那样，认为奖励足以解释绝大多数甚至所有的人类行为，但没有人会否认人们也常常通过联想来学习。事实上，沃瑟曼最近开展的那个带条纹圆盘的实验中，大多数本科生最终也成功了，但前提是他们放弃了寻找规则。他们像鸽子一样，求助于联想，事后也无法轻易解释他们学到了什么。只是通过足够的练习，他们开始对类别有了感觉。

这是关于联想学习的另一个讽刺之处：长期以来被认为是最复杂智能形式的——一种像基于规则学习的认知能力——或许造就了我们的人性，但我们也用它来完成最简单的任务，比如按颜色或大小对物体进行分类。与此同时，一些最精妙的人类学习展示——比如侍酒师学会品尝不同葡萄之间的差异——不是通过规则，而是只能通过经验习得。

通过经验学习依赖于我们与鸽子以及从蜜蜂到鱼类的无数其他生物所共有的古老联想机制。实验室里的鸽子不仅存在于我们的计算机中，也存在于我们的大脑中——它正是人类某些最惊人成就背后的驱动力。

https://www.technologyreview.com/2025/08/18/1121370/ai-pigeons-reinforcement-learning/

海量资讯、精准解读，尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

强化学习简史：从奖励一只鸽子说起

Most Discussed