頂會0篇,一夜RLHF爆文刷屏!他靠寫作逆襲AI圈,院士都説好

市場資訊
06-08

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

新智元報道

編輯:KingHZ

【新智元導讀】他不是天才,博士畢業0頂會論文,卻靠着堅持寫技術博客,因RLHF“網紅”博客文章一炮而紅,逆襲成功、躋身AI核心圈!技術可以遲到,但影響力不能缺席。這一次,是寫作改變命運。

Ai2的高級研究科學家Nathan Lambert,最近分享了他如何走上AI之路。

儘管起步艱難、幾經波折,他依舊在AI領域站穩腳跟、有所成就。

博士畢業時,他沒有在NeurIPS/ICML/ICLR等頂會上發表過文章。

如今,他的谷歌引用數已有5千多,h指數爲32。

深度RL:轉行契機

2017年秋天,他開始在加州大學伯克利分校電氣工程與計算機科學系讀博。

他的學術背景是MEMS(微機電系統)、高能物理/激光。

此外,他還在特斯拉做過電池工程實習。

但聽完迎新會、看教授介紹,他立刻就被AI吸引了。

像Sergey Levine(下圖左)和Pieter Abbeel(下圖右)這類教授,當時炙手可熱,風頭正勁。

那正是深度強化學習的高光時刻,相當於今天RL熱潮的“前浪”。

他曾主動聯繫Levine和Abbeel,希望加入他們的研究組,但都被婉拒。

雖然未能如願,但他並未氣餒,反而堅持不懈,一直在主動爭取機會。

之後一整年,他幾乎沒什麼真正接觸AI研究的機會

上課、讀論文,基本是獨自暗中摸索。

他沒采納那種“研究生上課不重要”的建議,反而學到了不少紮實的基礎知識。

但他沒能真正融入伯克利AI實驗室,也沒有AI方向的朋友,身邊全是EECS電氣工程那邊的同學。

世界頂尖學術AI研究實驗室

事後回顧,Nathan Lambert認爲入學前,他已有一些些基本特質:

基礎不是障礙,反而是勢能的起點。

最難的是第一步,而願意埋頭學基礎的人,最終會在別人止步之處繼續前進。

第一篇論文

轉機在他挖出了導師Kris Pister的一封舊郵件。

導師幫他牽線認識了當時的Sergey Levine組的博士後Roberto Calandra。

Roberto Calandra現任德累斯頓工業大學正教授(W3教授級別),並領導該校“學習、自適應系統與機器人”實驗室(LASR)

這纔算搭上AI的邊:

郵件摘錄:

Roberto對將機器學習應用於飄升機(ionocraft)感興趣。

我們可以嘗試:

優化腿部幾何形狀的學習算法;

爲機器人生成“複雜地形”進行測試;

用仿真優化新設計,再用硅材料製造出來測試;

用慣性傳感器數據優化步態、避障,甚至控制真實飛行器。

這次合作從2018年春天開始。

秋天錯過了一次會議投稿,而且很多實驗都失敗了。

到了2019年冬天,論文成爲他的“頭等大事”,雖然最後論文完成了,但成文有點粗糙、略顯拼湊。

論文鏈接:https://arxiv.org/abs/1901.03737

每次和Roberto開會,他都“壓力山大”,生怕漏掉AI博士生“習以爲常”的東西。

當時,他做了紮實的工作。

儘管當時總覺得自己格格不入,但那份全身心投入的執着對真正的研究彌足珍貴。

如今AI研究如此熱門,太多人只求在簡歷上勾選這段經歷,而非深究細節——

而那時的他,卻低估了自己的價值。

轉機往往藏在別人不經意的一句引薦裏。

不是每次實驗都要成功,但每次投入都能積蓄下一次的突破。

從FAIR實習起步

真正的轉機出現在2019年,Roberto問他要不要跟他去FAIR(Facebook人工智能研究院)實習。

正是這個實習把他從“AI圈外人”帶到了“AI圈內人”的軌道上。

FAIR的經歷讓他真正學會了如何做實驗、寫代碼。

之後,他堅持做研究,同時不斷教學來維持學業。

他寫了很多申請,但直到畢業纔拿到一些撥款,也算是前人栽樹,後人乘涼。

FAIR實習+大量面試,幫他拿到第二個機會——DeepMind的實習

儘管實習體驗不盡如人意,但他由此積累了寶貴的技術經驗與人脈資源。

這條路很清楚:一旦你突破了第一道門檻,後面就會順一點——

前提是你一直踩着油門往前衝。

研究生生涯後期,他在心理健康資源頁面上專門列了份“研究現實清單”,記錄所有不如意的事情。

最後,他以零篇NeurIPS/ICML/ICLR論文完成了AI博士。

他不是從小泡在實驗室的“圈內人”,而是靠韌性和創造力硬闖出來的。

這條路,正好也反映了他的AI界朋友圈:一羣“AI界的流浪玩具”。

這些“邊緣人社羣”各有短長,最後大家都找到自己的落點。

突破圈層的關鍵,不是資源而是契機+準備。

積累勢能,打響名聲

儘管前面經歷了不少波折,Nathan Lambert心裏一直有一個明確的目標——

拿下一份工業界研究崗,這對他來說纔算真正“在AI領域站穩了”。

最終他加入HuggingFace,那是唯一一份符合他要求的工作。

當時是HuggingFace的研究負責人Douwe Kiela,把他招進去,領導人類反饋強化學習(RLHF)團隊。

讓人沒想到的是,這類崗位會在他畢業一年後幾乎“消失殆盡”。

加入HuggingFace,對Nathan Lambert來說也算幸運,避開了一些聽起來更誘人、但後來大裁員或轉型的公司。

在HuggingFace,他收穫了許多。

其中最寶貴一課,是如何積累勢能(momentum)和心智佔有率(mind-share)

這兩個概念緊密關聯卻存在微妙差異——

• 個體持續積累動能換取行業影響力;

• 作爲組織,HuggingFace雖坐擁心智佔有率,近期卻面臨動能不足。

動能可轉化爲心智佔有率,而後者一旦建立,僅需維持引力便能持續發揮影響。

2022年5月加入HuggingFace後,在ChatGPT問世前的七個月裏,他認爲並未做出顯赫成果。

但堅守HuggingFace的文化,堅持日拱一卒:

每日必須推進技術進展——或是重大功能,或是代碼優化。

但日積月累,鍛鍊了好習慣。

博士生導師曾對他說過:“每天專注4小時,你也能改變世界。”

關鍵是要把“磚”一塊塊往上堆——

大多數人放棄得太早了。

在ChatGPT之前的那段時間,他在HuggingFace項目之間輾轉,基本是哪裏有事、哪裏需要人手就去哪兒。

他們嘗試了用於強化學習的合成環境項目Simulate,但其實他們人手根本不足。

目前,該項目已不再積極維護和開發。

Diffusers庫,他做了一些邊緣性的貢獻,還做了不少關於負責任AI的研究。

Diffusers提供最先進的預訓練擴散模型,支持圖像、音頻甚至分子3D結構生成

儘管這些工作在都還不錯,但坦白說,沒有哪個項目足以“構建職業基礎”

那段時間最有價值的,其實是:

這些爲之後遇到契合項目時,他能快速接住、真正發力打下了基礎。

RLHF技術博客“出圈”

他真正“出圈”的起點,是爲HuggingFace寫的第一篇重量級博客——關於RLHF(基於人類反饋的強化學習

其實那時他沒實現過RLHF算法,也沒完整讀過論文,只是爲了搞懂新概念就動筆了。

這和他現在很多寫作動機一樣:寫作是最好的學習方式

雖然他一直把自己當“強化學習傳人”,但也沒想太多,寫完就發了。

結果它成了RLHF關鍵詞下的長期搜索熱文(雖然現在內容已經有點舊了)。

回頭看,那是他第一次意識到自己的特長:

把顯而易見但沒人做的事,及時簡單地做好。

這是他後來變得非常重要的能力。

很多人會高估別人的執行力,低估簡單方案的價值,然後被自己複雜的想法拖住(沉沒成本效應)。

但其實,即使是“顯而易見”的事,也很少有人認真去做

比如在做RewardBench的時候,他整整三個月每天都擔心被別人“搶先發布”。

論文鏈接:https://arxiv.org/abs/2403.13787

結果發了後,又過了三個月纔有人發競品

所以,RewardBench是RLHF獎勵模型的第一個評估工具。

勢能來自每天一塊磚,而不是坐等奇蹟。當別人還在等待大項目,他已經靠“基礎活”攢下了存在感和專業度。

突破點:公開科研溝通>技術產出

在HuggingFace從事RLHF期間,他爲開源社區做了很多基礎性工作:

這很充實、也很有趣。

但後來,時差、文化差異等問題接踵而至。

他慢慢覺得不再快樂了。

HuggingFace如果當時能擴張團隊,並配上合適的技術領導,可能能將影響力擴大好幾倍。

但這也伴隨着風險。訓練AI模型是個異常細緻的過程,任務繁瑣、對小細節的執行有極高要求。

團隊只要稍微長大一點,可能就能帶來“瘋狂級別”的增益。

不管如何,與此同時,他找到了屬於自己的定位:做開放科研的溝通者

這個策略其實很簡單:

在AI實驗室趨於封閉、外界關注度飆升的當下,只要持續做與AI相關的事,在公衆眼裏的成長就會指數級上升。

他另闢蹊徑,選擇了競爭沒那麼激烈的方向。

這讓他更容易脫穎而出。

儘管注意力總量雖然在增長,但真正被關注的人反而在減少——

所以只要成爲其中之一,收穫會非常可觀。

如果他當初去了那些“前沿AI實驗室},可能早就被埋沒在其中,職業成長空間也被壓縮了。

而那時候,他開始堅持每週寫作,就是這一戰略最有力的驗證。

而一旦有了清晰的個人品牌,故事就自然會往你這兒聚攏

比如HuggingFace最具影響力的模型之一——Zephyr Beta,就是基於他幫助搭建的基礎設施完成的。

之後,他加入了Allen人工智能研究所(Allen Institute forAI,簡稱AI2)。

在他剛加入時,Ai2正好在訓練Tülu 2 70B

美國藝術與科學院與美國國家工程院(NAE)雙院士、斯坦福大學教授、NLP大牛Chris Manning,如獲至寶,甚至說Nathan Lambert的這兩項工作“救活了DPO”。

儘管在技術上,Nathan Lambert表示這些項目與DPO沒有直接關係。

現在,Chris Manning首次提出直接偏好優化DPO的論文,被引用了3000多次。

論文鏈接:https://arxiv.org/abs/2305.18290

這不是謙虛,而是想說明:

科研不是單一角色的戰場,推動科學進展的,是一個個看似不起眼、但密不可分的角色組合。

漸至佳境

在AI2的這段時間,是他職業生涯中最容易被看清楚的一段

他希望AI能真正朝好的方向發展,而且堅信更開放的生態是實現這一目標的最好方式

這份工作對他來說,幾乎是最理想的狀態:

他的公開寫作對AI2有明確價值,而他也能持續鍛鍊表達力、擴大影響力。 這樣的工作極其稀有,大多數公司並不會真的幫你個人成長。

剛加入AI2時,他也經歷了一段適應期。

通過RewardBench這類重要的學術項目,他表示自己建立了信心:

我能獨立提出點子,並帶頭推進高影響力的研究項目。

角色轉變

許多時候,參與太多合作會讓人忽略一個問題:你是否能一個人把事做成?

(即使慢一點、質量沒那麼高、過程沒那麼好玩——重點不在貶低團隊,而是看清自己的能力邊界。)

現在,他已轉變了工作方式,已經完全可以“因人隨事”而定。

周圍的同事,年輕、優秀、富有驅動力

他們更熟悉細節,也更擅長把新點子實現出來。

所以他更多的貢獻是:

他不再是那個親自下場刷代碼的人,而是負責讓項目走得更遠、更穩的人

這是一種完全不同的角色定位。

他形成了一個非常明確的觀點:

短期研究要產生影響,最有效方式就是把它接入模型訓練流程;

長期研究,就得真正做“長期”準備。

偶爾,他也會做些學術指導,但非常保護自己的時間

基本不做線上社交(線下少量),大多數合作都會婉拒。

因爲在這個階段,高質量的輸出纔是短期目標,而“被關注”是一個複雜得多的長期變量。

技術最終服務於人,好的科研不是一個人的衝刺,而是一羣人的合力

當你願意從舞臺中心走下來,才能搭起更大的舞臺。

職場中的“飛輪效應”

他表示他越來越喜歡用“飛輪”(flywheel)這個比喻來看待項目、職業、乃至整個機構的發展。

就像創業公司在找到產品市場匹配(PMF)前,要不斷試錯迭代,職業生涯也需要不斷點火

但一旦飛輪動起來,“發佈頻率”反而可能成爲負擔

早期在HuggingFace和剛進AI2時,他一直推崇“多發模型”,但久而久之,這變成了團隊的負擔。

所以他現在轉向更“少而精”的策略。當飛輪已經轉起來時,更少、更大的動作會更有價值。

飛輪一旦足夠大,有時候什麼都不做反而更有效:

真正的成長不是“更努力”,而是“更聰明地努力”。

當飛輪啓動,維持節奏比盲目奔跑更重要。

現在,他花很多時間思考:

如何更有策略地使用積累的影響力?

他不想總是站在最前線親自帶隊,而是希望通過營造環境、鼓勵他人,讓更多重要項目得以發生。

這是一套全新的能力,他還在學習。

而這,正是他始終心繫的願景:AI的未來不屬於孤勇者,而是屬於一羣協力前行、彼此賦能的人。

參考資料:

https://www.interconnects.ai/p/my-path-into-ai

https://www.linkedin.com/in/natolambert/

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10