頂會0篇，一夜RLHF爆文刷屏！他靠寫作逆襲AI圈，院士都說好

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

新智元報道

編輯：KingHZ

【新智元導讀】他不是天才，博士畢業0頂會論文，卻靠着堅持寫技術博客，因RLHF「網紅」博客文章一炮而紅，逆襲成功、躋身AI核心圈！技術可以遲到，但影響力不能缺席。這一次，是寫作改變命運。

Ai2的高級研究科學家Nathan Lambert，最近分享了他如何走上AI之路。

儘管起步艱難、幾經波折，他依舊在AI領域站穩腳跟、有所成就。

博士畢業時，他沒有在NeurIPS/ICML/ICLR等頂會上發表過文章。

如今，他的谷歌引用數已有5千多，h指數為32。

深度RL：轉行契機

2017年秋天，他開始在加州大學伯克利分校電氣工程與計算機科學系讀博。

他的學術背景是MEMS（微機電系統）、高能物理/激光。

此外，他還在特斯拉做過電池工程實習。

但聽完迎新會、看教授介紹，他立刻就被AI吸引了。

像Sergey Levine（下圖左）和Pieter Abbeel（下圖右）這類教授，當時炙手可熱，風頭正勁。

那正是深度強化學習的高光時刻，相當於今天RL熱潮的「前浪」。

他曾主動聯繫Levine和Abbeel，希望加入他們的研究組，但都被婉拒。

雖然未能如願，但他並未氣餒，反而堅持不懈，一直在主動爭取機會。

之後一整年，他幾乎沒什麼真正接觸AI研究的機會。

上課、讀論文，基本是獨自暗中摸索。

他沒采納那種「研究生上課不重要」的建議，反而學到了不少紮實的基礎知識。

但他沒能真正融入伯克利AI實驗室，也沒有AI方向的朋友，身邊全是EECS電氣工程那邊的同學。

世界頂尖學術AI研究實驗室

事後回顧，Nathan Lambert認為入學前，他已有一些些基本特質：

基礎不是障礙，反而是勢能的起點。

最難的是第一步，而願意埋頭學基礎的人，最終會在別人止步之處繼續前進。

第一篇論文

轉機在他挖出了導師Kris Pister的一封舊郵件。

導師幫他牽線認識了當時的Sergey Levine組的博士後Roberto Calandra。

Roberto Calandra現任德累斯頓工業大學正教授（W3教授級別），並領導該校「學習、自適應系統與機器人」實驗室（LASR）

這纔算搭上AI的邊：

郵件摘錄：

Roberto對將機器學習應用於飄升機（ionocraft）感興趣。

我們可以嘗試：

優化腿部幾何形狀的學習算法；

為機器人生成「複雜地形」進行測試；

用仿真優化新設計，再用硅材料製造出來測試；

用慣性傳感器數據優化步態、避障，甚至控制真實飛行器。

這次合作從2018年春天開始。

秋天錯過了一次會議投稿，而且很多實驗都失敗了。

到了2019年冬天，論文成為他的「頭等大事」，雖然最後論文完成了，但成文有點粗糙、略顯拼湊。

論文鏈接：https://arxiv.org/abs/1901.03737

每次和Roberto開會，他都「壓力山大」，生怕漏掉AI博士生「習以為常」的東西。

當時，他做了紮實的工作。

儘管當時總覺得自己格格不入，但那份全身心投入的執着對真正的研究彌足珍貴。

如今AI研究如此熱門，太多人只求在簡歷上勾選這段經歷，而非深究細節——

而那時的他，卻低估了自己的價值。

轉機往往藏在別人不經意的一句引薦裏。

不是每次實驗都要成功，但每次投入都能積蓄下一次的突破。

從FAIR實習起步

真正的轉機出現在2019年，Roberto問他要不要跟他去FAIR（Facebook人工智能研究院）實習。

正是這個實習把他從「AI圈外人」帶到了「AI圈內人」的軌道上。

FAIR的經歷讓他真正學會了如何做實驗、寫代碼。

之後，他堅持做研究，同時不斷教學來維持學業。

他寫了很多申請，但直到畢業纔拿到一些撥款，也算是前人栽樹，後人乘涼。

FAIR實習+大量面試，幫他拿到第二個機會——DeepMind的實習。

儘管實習體驗不盡如人意，但他由此積累了寶貴的技術經驗與人脈資源。

這條路很清楚：一旦你突破了第一道門檻，後面就會順一點——

前提是你一直踩着油門往前衝。

研究生生涯後期，他在心理健康資源頁面上專門列了份「研究現實清單」，記錄所有不如意的事情。

最後，他以零篇NeurIPS/ICML/ICLR論文完成了AI博士。

他不是從小泡在實驗室的「圈內人」，而是靠韌性和創造力硬闖出來的。

這條路，正好也反映了他的AI界朋友圈：一羣「AI界的流浪玩具」。

這些「邊緣人社羣」各有短長，最後大家都找到自己的落點。

突破圈層的關鍵，不是資源而是契機+準備。

積累勢能，打響名聲

儘管前面經歷了不少波折，Nathan Lambert心裏一直有一個明確的目標——

拿下一份工業界研究崗，這對他來說纔算真正「在AI領域站穩了」。

最終他加入HuggingFace，那是唯一一份符合他要求的工作。

當時是HuggingFace的研究負責人Douwe Kiela，把他招進去，領導人類反饋強化學習（RLHF）團隊。

讓人沒想到的是，這類崗位會在他畢業一年後幾乎「消失殆盡」。

加入HuggingFace，對Nathan Lambert來說也算幸運，避開了一些聽起來更誘人、但後來大裁員或轉型的公司。

在HuggingFace，他收穫了許多。

其中最寶貴一課，是如何積累勢能（momentum）和心智佔有率（mind-share）。

這兩個概念緊密關聯卻存在微妙差異——

• 個體持續積累動能換取行業影響力；

• 作為組織，HuggingFace雖坐擁心智佔有率，近期卻面臨動能不足。

動能可轉化為心智佔有率，而後者一旦建立，僅需維持引力便能持續發揮影響。

2022年5月加入HuggingFace後，在ChatGPT問世前的七個月裏，他認為並未做出顯赫成果。

但堅守HuggingFace的文化，堅持日拱一卒：

每日必須推進技術進展——或是重大功能，或是代碼優化。

但日積月累，鍛鍊了好習慣。

博士生導師曾對他說過：「每天專注4小時，你也能改變世界。」

關鍵是要把「磚」一塊塊往上堆——

大多數人放棄得太早了。

在ChatGPT之前的那段時間，他在HuggingFace項目之間輾轉，基本是哪裏有事、哪裏需要人手就去哪兒。

他們嘗試了用於強化學習的合成環境項目Simulate，但其實他們人手根本不足。

目前，該項目已不再積極維護和開發。

在Diffusers庫，他做了一些邊緣性的貢獻，還做了不少關於負責任AI的研究。

Diffusers提供最先進的預訓練擴散模型，支持圖像、音頻甚至分子3D結構生成

儘管這些工作在都還不錯，但坦白說，沒有哪個項目足以「構建職業基礎」。

那段時間最有價值的，其實是：

這些為之後遇到契合項目時，他能快速接住、真正發力打下了基礎。

RLHF技術博客「出圈」

他真正「出圈」的起點，是為HuggingFace寫的第一篇重量級博客——關於RLHF（基於人類反饋的強化學習）。

其實那時他沒實現過RLHF算法，也沒完整讀過論文，只是為了搞懂新概念就動筆了。

這和他現在很多寫作動機一樣：寫作是最好的學習方式。

雖然他一直把自己當「強化學習傳人」，但也沒想太多，寫完就發了。

結果它成了RLHF關鍵詞下的長期搜索熱文（雖然現在內容已經有點舊了）。

回頭看，那是他第一次意識到自己的特長：

把顯而易見但沒人做的事，及時簡單地做好。

這是他後來變得非常重要的能力。

很多人會高估別人的執行力，低估簡單方案的價值，然後被自己複雜的想法拖住（沉沒成本效應）。

但其實，即使是「顯而易見」的事，也很少有人認真去做。

比如在做RewardBench的時候，他整整三個月每天都擔心被別人「搶先發布」。

論文鏈接：https://arxiv.org/abs/2403.13787

結果發了後，又過了三個月纔有人發競品。

所以，RewardBench是RLHF獎勵模型的第一個評估工具。

勢能來自每天一塊磚，而不是坐等奇蹟。當別人還在等待大項目，他已經靠「基礎活」攢下了存在感和專業度。

突破點：公開科研溝通>技術產出

在HuggingFace從事RLHF期間，他為開源社區做了很多基礎性工作：

這很充實、也很有趣。

但後來，時差、文化差異等問題接踵而至。

他慢慢覺得不再快樂了。

HuggingFace如果當時能擴張團隊，並配上合適的技術領導，可能能將影響力擴大好幾倍。

但這也伴隨着風險。訓練AI模型是個異常細緻的過程，任務繁瑣、對小細節的執行有極高要求。

團隊只要稍微長大一點，可能就能帶來「瘋狂級別」的增益。

不管如何，與此同時，他找到了屬於自己的定位：做開放科研的溝通者。

這個策略其實很簡單：

在AI實驗室趨於封閉、外界關注度飆升的當下，只要持續做與AI相關的事，在公衆眼裏的成長就會指數級上升。

他另闢蹊徑，選擇了競爭沒那麼激烈的方向。

這讓他更容易脫穎而出。

儘管注意力總量雖然在增長，但真正被關注的人反而在減少——

所以只要成為其中之一，收穫會非常可觀。

如果他當初去了那些「前沿AI實驗室}，可能早就被埋沒在其中，職業成長空間也被壓縮了。

而那時候，他開始堅持每周寫作，就是這一戰略最有力的驗證。

而一旦有了清晰的個人品牌，故事就自然會往你這兒聚攏。

比如HuggingFace最具影響力的模型之一——Zephyr Beta，就是基於他幫助搭建的基礎設施完成的。

之後，他加入了Allen人工智能研究所（Allen Institute forAI，簡稱AI2）。

在他剛加入時，Ai2正好在訓練Tülu 2 70B。

美國藝術與科學院與美國國家工程院（NAE）雙院士、斯坦福大學教授、NLP大牛Chris Manning，如獲至寶，甚至說Nathan Lambert的這兩項工作「救活了DPO」。

儘管在技術上，Nathan Lambert表示這些項目與DPO沒有直接關係。

現在，Chris Manning首次提出直接偏好優化DPO的論文，被引用了3000多次。

論文鏈接：https://arxiv.org/abs/2305.18290

這不是謙虛，而是想說明：

科研不是單一角色的戰場，推動科學進展的，是一個個看似不起眼、但密不可分的角色組合。

漸至佳境

在AI2的這段時間，是他職業生涯中最容易被看清楚的一段。

他希望AI能真正朝好的方向發展，而且堅信更開放的生態是實現這一目標的最好方式。

這份工作對他來說，幾乎是最理想的狀態：

他的公開寫作對AI2有明確價值，而他也能持續鍛鍊表達力、擴大影響力。這樣的工作極其稀有，大多數公司並不會真的幫你個人成長。

剛加入AI2時，他也經歷了一段適應期。

通過RewardBench這類重要的學術項目，他表示自己建立了信心：

我能獨立提出點子，並帶頭推進高影響力的研究項目。

角色轉變

許多時候，參與太多合作會讓人忽略一個問題：你是否能一個人把事做成？

（即使慢一點、質量沒那麼高、過程沒那麼好玩——重點不在貶低團隊，而是看清自己的能力邊界。）

現在，他已轉變了工作方式，已經完全可以「因人隨事」而定。

周圍的同事，年輕、優秀、富有驅動力。

他們更熟悉細節，也更擅長把新點子實現出來。

所以他更多的貢獻是：

他不再是那個親自下場刷代碼的人，而是負責讓項目走得更遠、更穩的人。

這是一種完全不同的角色定位。

他形成了一個非常明確的觀點：

短期研究要產生影響，最有效方式就是把它接入模型訓練流程；

長期研究，就得真正做「長期」準備。

偶爾，他也會做些學術指導，但非常保護自己的時間。

基本不做線上社交（線下少量），大多數合作都會婉拒。

因為在這個階段，高質量的輸出纔是短期目標，而「被關注」是一個複雜得多的長期變量。

技術最終服務於人，好的科研不是一個人的衝刺，而是一羣人的合力。

當你願意從舞台中心走下來，才能搭起更大的舞台。

職場中的「飛輪效應」

他表示他越來越喜歡用「飛輪」（flywheel）這個比喻來看待項目、職業、乃至整個機構的發展。

就像創業公司在找到產品市場匹配（PMF）前，要不斷試錯迭代，職業生涯也需要不斷點火：

但一旦飛輪動起來，「發布頻率」反而可能成為負擔：

早期在HuggingFace和剛進AI2時，他一直推崇「多發模型」，但久而久之，這變成了團隊的負擔。

所以他現在轉向更「少而精」的策略。當飛輪已經轉起來時，更少、更大的動作會更有價值。

飛輪一旦足夠大，有時候什麼都不做反而更有效：

真正的成長不是「更努力」，而是「更聰明地努力」。

當飛輪啓動，維持節奏比盲目奔跑更重要。

現在，他花很多時間思考：

如何更有策略地使用積累的影響力？

他不想總是站在最前線親自帶隊，而是希望通過營造環境、鼓勵他人，讓更多重要項目得以發生。

這是一套全新的能力，他還在學習。

而這，正是他始終心繫的願景：AI的未來不屬於孤勇者，而是屬於一羣協力前行、彼此賦能的人。

參考資料：

https://www.interconnects.ai/p/my-path-into-ai

https://www.linkedin.com/in/natolambert/

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

頂會0篇，一夜RLHF爆文刷屏！他靠寫作逆襲AI圈，院士都說好

熱議股票