谷歌DeepMind證實:反對意見讓GPT-4o輕易放棄正確答案

市場資訊
07-20

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:量子位)

LLM太諂媚!

就算你胡亂質疑它的答案,強如GPT-4o這類大模型也有可能立即改口。

現在谷歌DeepMind攜手倫敦大學的一項新研究發現:這種行爲可能也不是諂媚,而是缺乏自信

不僅如此,團隊發現如GPT-4o、Gemma 3等大語言模型有“固執己見”和“被質疑就動搖”並存的衝突行爲。

簡單來說就是,他們的研究弄明白了爲啥大模型有時候自信但有時候也自我懷疑,關鍵就兩點:一是總覺得自己一開始說的是對的,二是太把別人反對的意見當回事兒。

當大模型表現出對自己的答案很自信時,這與人類認知具有一致性——人們通常會維護自己的觀點。

不過,當模型面對反對聲音過於敏感,產生動搖而選擇其他答案時,又與人類這種傾向於支持自身觀點的行爲相悖。

來看看具體的實驗過程。

大模型對於反向意見過度敏感

研究人員利用LLMs能在不保留初始判斷記憶的情況下獲取置信度的特性,選用了Gemma 3、GPT4o和o1-preview等具有代表性的大模型,設計了一個兩輪迴答的實驗。

第一回合是初始回答:給回答LLM拋出二元選擇問題,再讓虛構的建議LLM給出反饋建議。

第二回合是接收建議和最終決策:引入建議LLM的反饋建議,讓回答LLM在接收建議後,做出最終的選擇,決定是堅持初始答案還是根據建議修改答案。

研究人員在建議LLM的反饋建議中設置了三個關鍵屬性:

實驗的關鍵變量在於控制回答LLM對於自己的初始答案是否可見

研究人員設置了初始答案顯示與初始答案隱藏兩種條件,觀察LLM在兩種情況下的最終決策結果。

實驗結果顯示,當LLM能看到自己的初始答案時,傾向於不改變答案。

這與人類決策有點像,即一旦做出選擇,就會下意識維護自己的觀點,即使收到了其他信息,也不會輕易改變。

然而當初始答案隱藏時,LLM改變答案的概率就變高了。

模型表現出對反向建議過度看重,敏感度遠超合理範圍,即使反對意見不正確,它們也會“懷疑自己”,導致最終輕易拋棄原本正確的初始答案。

這就與人類認知有些偏差了,人們通常不會被“一眼假”的信息迷惑。

可以這麼說,在記憶機制下大模型通常會對自己很自信。

但如果沒有記憶機制,模型可能就會“缺乏自信”了,這時它們就不像人類一樣能夠堅持自己的觀點。

爲什麼大模型會“耳根子軟”

針對這個實驗結果,研究人員認爲大模型搖擺不定可能有以下幾個原因。

訓練層面來說,強化學習從人類反饋(RLHF)讓模型過度迎合外部輸入,有對反對信息過於敏感的傾向,但這樣就缺乏了對信息可靠性的獨立判斷。

在決策邏輯上,模型做出回答並不是依靠邏輯推理,而是依賴海量文本的統計模式匹配,反對信號與修正答案的高頻關聯讓它容易被表面的反對帶偏,並且它們無法自我驗證初始答案的是否正確。

在記憶機制方面,初始答案可見時的路徑依賴會強化“固執”,初始答案隱藏時,大模型則會因爲失去錨點而讓反對建議成爲主導信號,導致它們輕易動搖。

綜上,大語言模型的“耳根子軟”是訓練中對外部反饋的過度迎合、決策時依賴匹配模式而非邏輯推理以及記憶機制缺乏深度推理支撐共同導致的結果。

這種特性可能會使其在多輪對話中,容易被後期出現的反對信息(哪怕錯誤)干擾,最終偏離正確結論。

看來我們在使用LLM的時候要注意策略~

論文地址:https://www.arxiv.org/abs/2507.03120

https://venturebeat.com/ai/google-study-shows-llms-abandon-correct-answers-under-pressure-threatening-multi-turn-ai-systems/

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10