強化學習簡史：從獎勵一隻鴿子說起

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

（來源：DeepTech深科技）

1943 年，當世界上最頂尖的物理學家們在為「曼哈頓計劃」（Manhattan Project）分裂原子時，美國心理學家 B.F. 斯金納（B.F. Skinner）也領導着他自己的祕密政府項目，旨在贏得第二次世界大戰。

斯金納的目標並非要製造一種更大、更具毀滅性的新型武器。相反，他希望讓常規炸彈變得更加精準。這個想法是在他乘坐火車去參加一次學術會議的途中，凝視窗外時迸發的。「我看到一羣鳥兒在火車旁飛翔，時而盤旋，時而成羣結隊，」他寫道，「我突然意識到，它們是擁有卓越視覺和機動性的‘裝置’。難道它們不能引導一枚導彈嗎？」

斯金納最初用烏鴉進行導彈研究，但這些聰明的黑色鳥類難以馴服。於是，他去了一家向中餐館出售鴿子的本地商店，自此，「白鴿計劃」（Project Pigeon）誕生了。儘管普通家鴿（學名 Columba livia）在人們印象中並不聰明，但它們在實驗室裏卻表現出驚人的合作性。

斯金納通過獎勵食物的方式，訓練鴿子啄食航空照片上的正確目標。他最終計劃將這些鳥兒綁在彈頭的鼻錐部的一個裝置裏，通過啄食一個由透鏡投射到螢幕上的實時圖像目標，來引導彈頭的方向。

（來源：B.F.斯金納基金會）

軍方最終沒有部署斯金納的「神風特攻隊」鴿子，但這些實驗使他相信，鴿子是研究學習過程基本原理的「一種極其可靠的工具」。「我們使用鴿子，不是因為它是一種聰明的鳥，而是因為它是一種實用的鳥，可以被改造成一部機器，」他在 1944 年說道。

在尋找人工智能的先驅時，人們常常會提到像艾薩克·阿西莫夫（Isaac Asimov）這樣的科幻作家，或是如圖靈測試（Turing test）這樣的思想實驗。但一個同樣重要，卻出人意料且鮮為人知的前身，是斯金納在 20 世紀中葉對鴿子的研究。斯金納認為，聯想——通過試錯學習，將行動與懲罰或獎勵聯繫起來——是所有行為的基礎，不僅限於鴿子，而是包括人類在內的所有生物。他的「行為主義」（behaviorist）理論在 1960 年代被心理學家和動物研究者所冷落，但卻被計算機科學家們所採納，並最終為許多來自谷歌（Google）和 OpenAI 等頂尖公司的人工智能工具奠定了基礎。

這些公司的程序正越來越多地採用一種機器學習，其核心概念——強化——直接源自斯金納的心理學派。這一學派的主要構建者，計算機科學家理查德·薩頓（Richard Sutton）和安德魯·巴託（Andrew Barto），贏得了 2024 年的圖靈獎，這一獎項被廣泛認為是計算機科學界的諾貝爾獎。強化學習（Reinforcement learning）使得計算機能夠駕駛汽車、解決複雜的數學問題，並在國際象棋和圍棋等遊戲中擊敗頂尖大師——但它並非通過模仿人類心智的複雜運作來實現這一切，而是通過極大地強化鴿子大腦中簡單的聯想過程。

薩頓曾寫道，這是 70 年人工智能研究得出的一個「慘痛教訓」：人類智能並非機器學習的有效模型——相反，正是這種基礎的聯想學習原則，驅動着那些現在能夠在各種任務上模擬甚至超越人類的算法。如果人工智能真的像許多人擔心的那樣，即將擺脫其創造者的束縛，那麼我們的計算機霸主可能不會像我們自己，而更像是「長着翅膀的老鼠」——擁有行星般大小的大腦。即便事實並非如此，鴿子的大腦至少也能幫助我們揭開這項令許多人擔憂（或欣喜）其正「變得人性化」的技術的神祕面紗。

反過來，人工智能近期的成就也正促使一些動物研究者重新思考自然智能的演化。斯德哥爾摩大學（Stockholm University）的生物學家約翰·林德（Johan Lind ）曾撰文描述「聯想學習悖論」（associative learning paradox）：生物學家們普遍認為這個過程過於簡單，無法在動物身上產生複雜的行為，但當它在計算機上產生類人行為時，卻備受讚譽。這項研究不僅表明，聯想學習在黑猩猩和烏鴉等聰明動物的生活中扮演着更重要的角色，而且也揭示了像普通原鴿這類長期被我們視為頭腦簡單的動物，其生活遠比我們想象的要複雜得多。

當薩頓開始從事人工智能研究時，他感覺自己有個「祕密武器」。他告訴我，他本科時學過心理學。「我當時正在挖掘關於動物的心理學文獻，」他說。

（來源：B.F.斯金納基金會）

19 世紀末，伊凡·巴甫洛夫（Ivan Pavlov）在他著名的「經典條件反射」（classical conditioning）實驗中，開始揭示聯想學習的機制。他證明了，如果一箇中性刺激——比如鈴聲或閃光燈——與食物的出現可預測地配對，狗就會對這個中性刺激產生流涎反應。20 世紀中葉，斯金納繼承並擴展了巴甫洛夫的條件反射原理，將其從動物的非自願反射行為延伸至其整體行為。

斯金納寫道，「行為是由其後果塑造和維持的」——一個隨機的行動如果帶來了理想的結果，比如按下一個槓桿會釋放一個食物丸，那麼這個行為就會被「強化」，從而使動物更有可能重複它。斯金納通過一步步強化他實驗動物的行為，教會老鼠操縱彈珠，讓鴿子在四鍵鋼琴上彈奏簡單的曲調。這些動物通過試錯學會了一系列行為鏈，以最大化長期獎勵。斯金納認為，這種他稱之為「操作性條件反射」（operant conditioning）（其他心理學家稱之為「工具性學習」）的聯想學習，是所有行為的基石。他相信心理學應該只研究那些可以被觀察和測量的行為，而無需涉及任何內在的「心智主體」。

斯金納認為，甚至人類語言也是通過操作性條件反射發展的，兒童通過強化來學習詞語的意義。但他 1957 年關於該主題的著作《言語行為》（Verbal Behavior）遭到了諾姆·喬姆斯基（Noam Chomsky）的猛烈批評，此後心理學的焦點開始從可觀察的行為轉向人類心智固有的「認知」能力，如邏輯和符號思維。生物學家們也很快反抗行為主義，他們攻擊心理學家試圖用一種基本且普適的機制來解釋動物行為多樣性的做法。他們認為，每個物種都演化出了適應其棲息地和生活方式的特定行為，並且大多數行為是遺傳的，而非後天習得的。

到了 70 年代，當薩頓開始閱讀關於斯金納及類似實驗的文獻時，許多對智能感興趣的心理學家和研究者已經從主要通過聯想學習的「小腦袋」鴿子，轉向了那些行為更復雜、暗示具有潛在認知能力的大腦動物。「這顯然是陳舊的東西，不再讓人們感到興奮了，」他告訴我。儘管如此，薩頓發現這些舊實驗對機器學習具有啓發意義：「我帶着一種動物學習理論者的思維方式進入人工智能領域，卻發現工程學中幾乎沒有任何類似工具性學習的東西。」

在 20 世紀下半葉，許多工程師試圖以人類智能為模型來構建人工智能，他們編寫複雜的程序，試圖模仿人類思維並實現支配人類反應和行為的規則。這種通常被稱為「符號 AI」（symbolic AI）的方法受到了嚴重限制；這些程序在處理對人類來說輕而易舉的任務時，比如識別物體和文字，卻舉步維艱。要將人類用來區分蘋果和橙子或貓和狗的無數分類規則寫入代碼，根本是不可能的——而沒有模式識別，像問題解決、遊戲和語言翻譯這樣更復雜任務的突破也似乎遙遙無期。正如 AI 懷疑論者休伯特·德雷福斯（Hubert Dreyfus）在 1972 年所寫的，這些計算機科學家們所取得的成就不過是「一次小小的工程勝利，一個針對特定問題的臨時解決方案，缺乏普遍適用性。」

然而，關於鴿子的研究暗示了另一條路徑。1964 年的一項研究表明，鴿子可以學會區分包含人物的照片和不包含人物的照片。研究人員只是向鳥兒展示一系列圖像，當它們啄食一張有人出現的圖像時，就用一顆食物丸作為獎勵。它們起初是隨機啄食，但很快就學會了識別正確的圖像，包括那些人物被部分遮擋的照片。這個結果表明，你不需要規則來分類物體；僅通過聯想學習，就有可能學習概念和使用類別。

（來源：GETTY IMAGES）

當薩頓在 70 年代末開始與巴託合作研究 AI 時，他們想要創造一個「完整的、交互式的、尋求目標的智能體」，能夠像鴿子或老鼠一樣探索並影響其環境。「我們一直覺得，我們研究的問題更接近動物在進化中為生存所必須面對的問題，」巴託告訴我。這個智能體需要兩個主要功能：搜索，即在特定情境下嘗試並從衆多行動中進行選擇；以及記憶，即將一個行動與它帶來獎勵的情境聯繫起來。薩頓和巴託將他們的方法稱為「強化學習」；正如薩頓所說，「它基本上就是工具性學習。」1998 年，他們在一本書《強化學習導論》（Reinforcement Learning: An Introduction）中，對這一概念進行了系統闡述。

在接下來的二十年裏，隨着計算能力的指數級增長，對 AI 進行日益複雜的任務訓練成為可能——這本質上就是讓 AI「鴿子」經歷數百萬次更多的試驗。

結合了人類輸入和強化學習的程序在國際象棋和雅達利（Atari）遊戲中擊敗了人類專家。隨後，在 2017 年，谷歌 DeepMind 的工程師們完全通過強化學習構建了 AI 程序 AlphaGo Zero。他們為它贏的每一盤圍棋比賽設定 +1 的數值獎勵，輸的每一盤則為 -1。這個程序被設定為尋求最大化獎勵，它在沒有任何圍棋知識的情況下開始，但在 40 天內不斷改進，最終達到了其創造者所稱的「超人」表現。它不僅能擊敗世界上最優秀的圍棋人類選手——這場比賽被認為比國際象棋更為複雜——而且實際上開創了職業棋手現在使用的新策略。

「人類在數千年的時間裏，通過數百萬盤棋局積累了圍棋知識，」該程序的構建者在 2017 年的《自然》（Nature）雜誌上寫道。「在幾天之內，從一張白紙（tabula rasa）開始，AlphaGo Zero 不僅能夠重新發現大部分這些圍棋知識，還開創了為這場最古老的遊戲提供新見解的新穎策略。」該團隊的首席研究員是戴維·西爾弗（David Silver），他曾在阿爾伯塔大學（University of Alberta）師從薩頓學習強化學習。

如今，越來越多的科技公司已將強化學習應用於面向消費者的聊天機器人和智能體等產品中。第一代生成式 AI，包括像 OpenAI 的 GPT-2 和 GPT-3 這樣的大語言模型（LLM, Large Language Models），利用了一種更簡單的聯想學習形式，稱為「監督學習」（supervised learning），即在由人類標記的數據集上訓練模型。程序員們通常使用強化學習來微調結果，他們會請人們對程序的表現進行評分，然後將這些評分作為目標反饋給程序以供其追求。（研究人員稱之為「基於反饋的強化學習」。）

去年秋天，OpenAI 公布了其 o 系列大語言模型，並將其歸類為「推理」模型。這家開創性的 AI 公司宣稱，這些模型「通過強化學習進行訓練以執行推理」，並聲稱它們能夠進行「長時程的內部思維鏈」。中國初創公司 DeepSeek 也使用強化學習來訓練其引人注目的「推理」LLM，R1。「我們不是明確地教模型如何解決問題，而只是為它提供正確的激勵，它就能自主地發展出先進的問題解決策略，」他們解釋道。

這些描述可能會給用戶留下深刻印象，但至少在心理學上，它們是含糊不清的。一個基於強化學習訓練的計算機，只需要搜索和記憶，而不需要推理或任何其他認知機制，就能形成聯想並最大化獎勵。一些計算機科學家批評了將這些模型「思考」擬人化的傾向，一個蘋果公司的工程師團隊最近發表了一篇論文，指出了它們在某些複雜任務上的失敗，並「對其真實的推理能力提出了關鍵問題」。

薩頓在一封電子郵件中也把關於推理的說法斥為「市場營銷」，並補充說，「沒有一個嚴肅的心智學者會用‘推理’來描述 LLM 中發生的事情。」儘管如此，他與西爾弗及其他合著者一同指出，鴿子的方法——通過試錯學習哪些行為會產生獎勵——足以「驅動展現出自然和人工智能領域中研究的大多數甚至所有能力的行為」，包括人類語言「以其全部的豐富性」。

在四月份發表的一篇論文中，薩頓和西爾弗指出，「當今的技術，只要有恰當選擇的算法，已經為 AI 迅速邁向真正超人智能體提供了足夠強大的基礎。」他們認為，關鍵在於構建的 AI 智能體要比 LLM 更少地依賴人類對話和偏見來指導其行為。

「強大的智能體應該擁有自己的經驗流，像人類一樣，在漫長的時間尺度上不斷發展，」他們寫道。「最終，經驗數據將在規模和質量上超越人類生成的數據。這種範式轉變，伴隨着強化學習算法的進步，將在許多領域解鎖超越任何人類所擁有的新能力。」

如果計算機僅憑一個類似鴿子的大腦就能做到這一切，一些動物研究者現在開始思考，真正的鴿子是否也應得到比通常更多的讚譽。

「當考慮到 AI 的成就時，將聯想學習擴展到據稱更復雜的認知表現形式，為理解生物系統如何演化提供了新的前景，」愛荷華大學（University of Iowa）的心理學家埃德·沃瑟曼（Ed Wasserman）在最近發表於《當代生物學》（Current Biology）雜誌的一項研究中寫道。

在一項實驗中，沃瑟曼訓練鴿子成功完成了一項複雜的分類任務，而幾名本科生卻失敗了。學生們徒勞地試圖找到一個規則來幫助他們分類那些帶有不同寬度和傾斜度平行黑線的圓盤；而鴿子們只是通過練習和聯想，形成了一種感覺，判斷任何給定的圓盤屬於哪個組。

和薩頓一樣，沃瑟曼也是在斯金納的理論失寵時對行為主義心理學產生了興趣。但他沒有轉向計算機科學，而是堅持研究鴿子。「鴿子生死都依賴於這些非常基礎的學習規則，」沃瑟曼最近告訴我，「但這些規則已經足夠強大，讓它們在物體識別方面取得了巨大的成功。」在他最著名的實驗中，沃瑟曼訓練鴿子在醫學掃描中檢測癌變組織和心臟病症狀，其準確度堪比辦公桌後掛着鑲框文憑的資深醫生。鑑於他的研究結果，沃瑟曼覺得奇怪的是，如此多的心理學家和行為生態學家將聯想學習視為一種粗糙、機械的機制，無法產生像猿、大象、海豚、鸚鵡和烏鴉等聰明動物的智能。

在 AI 開始在複雜遊戲中戰勝人類專家之後，其他研究人員也開始重新思考聯想學習在動物行為中的作用。「隨着本質上建立在聯想過程之上的人工智能取得進展，聯想學習被認為過於簡單且不足以產生生物智能，這變得越來越諷刺，」斯德哥爾摩大學的生物學家林德在 2023 年寫道。他經常在他的生物學研究中引用薩頓和巴託的計算機科學，並且他相信，真正將人類置於其自身認知類別的是人類的符號語言和累積文化。

行為生態學家通常提出認知機制，如心理理論（theory of mind，即把精神狀態歸因於他人的能力），來解釋像社會學習和工具使用這樣非凡的動物行為。但林德建立了模型，表明這些靈活的行為可能是通過聯想學習發展而來的，這表明可能根本無需援引認知機制。如果動物學會將一種行為與獎勵聯繫起來，那麼該行為本身就會逐漸趨近於獎勵的價值。然後，一個新的行為可以與第一個行為相關聯，從而讓動物學習最終導致獎勵的一系列行為鏈。在林德看來，展示黑猩猩和渡鴉自我控制和規劃能力的研究，很可能描述的是通過經驗獲得的行為，而非心靈的內在機制。

林德對他所稱的「動物認知研究中被接受的低標準」感到沮喪。正如他在一封電子郵件中寫的，「這個領域的許多研究人員似乎不擔心排除其他假設，他們樂於忽視大量當前和歷史的知識。」不過，有跡象表明他的論點正在獲得關注。一羣與林德無關聯的心理學家去年在批評一項《當代生物學》的研究時，引用了他的「聯想學習悖論」。該研究聲稱烏鴉在一次實驗中使用了「真正的統計推斷」，而非「低級聯想學習策略」。這些心理學家發現，他們可以用一個簡單的強化學習模型來解釋烏鴉的表現——「正是[原作者]排除了的那種低級聯想學習過程。」

斯金納或許會為這些論點感到欣慰。直到 1990 年去世前，他一直對心理學的認知轉向感到惋惜，堅稱探索生物思想是科學上不負責任的。在「白鴿計劃」之後，他越來越癡迷於用「行為主義」的方案解決社會問題。他從為戰爭訓練鴿子轉向了像「育兒箱」（Air Crib）這樣的發明，旨在通過將嬰兒置於一個氣候可控的玻璃室中，消除對衣物和被褥的需求，從而「簡化」育兒。斯金納否定自由意志，認為人類行為是由環境變量決定的，並寫了一部名為《瓦爾登湖二號》（Walden II）的小說，講述了一個建立在他理念上的烏托邦社區。

關心動物權益的人可能會對行為主義理論的復興感到不安。「認知革命」打破了幾個世紀以來強調人類至上、將其他生物視為刺激-反應機器的西方思維傳統。但主張動物通過聯想學習，與主張它們頭腦簡單並非一回事。像林德和沃瑟曼這樣的科學家並不否認本能和情感等內在力量也會影響動物行為。薩頓也相信，動物通過經驗建立世界模型，並用它們來規劃行動。他們的觀點不是說智能動物是空洞的，而是說聯想學習是一種比許多同行所認為的更強大——實際上是「認知性」的——機制。最近批評關於烏鴉和統計推斷研究的心理學家們並沒有得出鳥類愚蠢的結論。相反，他們認為「一個強化學習模型可以產生複雜、靈活的行為。」

這很大程度上與另一位心理學家羅伯特·雷斯科拉（Robert Rescorla）的研究相符，他在 70 和 80 年代的工作影響了沃瑟曼和薩頓。雷斯科拉鼓勵人們不要把聯想看作一個「低級的機械過程」，而應看作是「因暴露於環境中事件之間的關係而產生的學習」，以及「生物體表徵其世界結構的主要方式」。

這甚至適用於一隻在小型實驗箱中啄食螢幕和按鈕的實驗室鴿子，科學家在那裏仔細控制和測量刺激與獎勵。但鴿子的學習延伸到了實驗箱之外。沃瑟曼的學生用桶在鳥舍和實驗室之間運送鴿子——經驗豐富的鴿子只要學生一打開門就會立刻跳進桶裏。正如雷斯科拉所暗示的，它們正在學習它們世界內部的結構及其各部分之間的關係，比如桶和實驗箱，儘管它們並不總是知道進去後會面臨什麼具體任務。

通過同樣的聯想機制，鴿子學習其世界的結構，這也能為了解斯金納和許多早期心理學家所否認的那種內心生活打開一扇窗。藥物研究人員長期以來在藥物辨別任務中使用鴿子，例如，給它們服用安非他明或鎮靜劑，並因其正確識別所服藥物而獎勵食物丸。鳥類的成功表明它們既能體驗也能辨別內部狀態。「這難道不等於內省嗎？」沃瑟曼問道。

很難想象 AI 能在這項特定任務上與鴿子匹敵——這提醒我們，儘管 AI 和動物共享聯想機制，但生命遠不止於行為與學習。

一隻鴿子理應被視為一個生命體而受到倫理關懷，不是因為它如何學習，而是因為它有何感受。鴿子能夠體驗痛苦和苦難，而 AI 聊天機器人則不能——即使一些大型語言模型，因其訓練語料庫包含了對人類苦難的描述和關於有感知能力的計算機的科幻故事，能夠欺騙人們相信它們可以。

「近年來對 AI 研究的密集公共和私人投資，催生了迫使我們直面 AI 感知問題的技術，」兩位科學哲學家在 2023 年於《永世》（Aeon）雜誌上寫道。

「要回答這些當前的問題，我們需要在動物認知和行為研究上投入同等程度的資源。」事實上，由於 AI 的出現，比較心理學家和動物研究人員長期以來努力解決的問題突然變得緊迫起來：我們如何將感知能力賦予其他生物？我們如何區分真實的感知和一場令人信服的感知表演？

這樣的努力不僅會帶來關於技術和動物的知識，也會帶來關於我們自身的知識。大多數心理學家可能不會像薩頓那樣，認為獎勵足以解釋絕大多數甚至所有的人類行為，但沒有人會否認人們也常常通過聯想來學習。事實上，沃瑟曼最近開展的那個帶條紋圓盤的實驗中，大多數本科生最終也成功了，但前提是他們放棄了尋找規則。他們像鴿子一樣，求助於聯想，事後也無法輕易解釋他們學到了什麼。只是通過足夠的練習，他們開始對類別有了感覺。

這是關於聯想學習的另一個諷刺之處：長期以來被認為是最複雜智能形式的——一種像基於規則學習的認知能力——或許造就了我們的人性，但我們也用它來完成最簡單的任務，比如按顏色或大小對物體進行分類。與此同時，一些最精妙的人類學習展示——比如侍酒師學會品嚐不同葡萄之間的差異——不是通過規則，而是只能通過經驗習得。

通過經驗學習依賴於我們與鴿子以及從蜜蜂到魚類的無數其他生物所共有的古老聯想機制。實驗室裏的鴿子不僅存在於我們的計算機中，也存在於我們的大腦中——它正是人類某些最驚人成就背後的驅動力。

https://www.technologyreview.com/2025/08/18/1121370/ai-pigeons-reinforcement-learning/

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

強化學習簡史：從獎勵一隻鴿子說起

熱議股票