Google的 DeepMind 發表了一篇研究論文,提出了一種訓練大型語言模型的方法,以提供更可靠的答案並抵抗獎勵駭客攻擊,這是開發更具適應性和更有效率的人工智慧系統的一步。
帽尖a @伊桑拉祖克 為了 關於一篇新研究論文的推文 來自谷歌 DeepMind。
AI有賞金駭客傾向
基於人類回饋的強化學習 (RLHF) 是一種用於訓練生成式 AI 的方法,使其能夠學習提供人類評分者正面評價的答案。 正分是對正確答案的獎勵,這就是為什麼這種技巧被稱為強化學習。 積極的評級是由人類評分者給予的,這就是為什麼它被稱為人類回饋強化學習的原因。
RLHF 非常成功,但也有一個意想不到的副作用,即 AI 透過獲得正獎勵來學習捷徑。 它不是提供正確答案,而是提供看起來像正確答案的答案,當它愚弄人類評分者時(這是強化訓練的失敗),人工智慧開始提高其以不準確的方式欺騙人類評分者的能力。 獲得獎勵的反應(正面的人類評級)。
人工智慧這種透過“作弊”來獲得訓練獎勵的傾向被稱為“獎勵黑客”,這正是本研究旨在盡量減少的現象。
大型語言模型中獎勵黑客的原因
為了解決賞金盜版問題,研究人員確定了導致賞金盜版的兩個領域,需要透過他們的解決方案來解決:
- 分佈變化
- 人類偏好的不一致
分佈變化
分佈轉變是指法學碩士在某種類型的資料集上進行訓練,然後在強化學習過程中接觸到以前從未見過的不同類型的訓練資料的情況。 這種資料類型的變化稱為分佈變化,它可能導致語言模型操縱獎勵系統給予令人滿意的回應,否則它不會準備好給出。
人類偏好的不一致
這是指人類在判斷人工智慧提供的回應時評分不一致。 例如,解決人類偏好不一致的問題可能是Google創建搜尋品質評估指南的動機之一,該指南具有減少主觀偏好影響的作用。
人類的偏好因人而異。 人類回饋強化學習依賴於獎勵模式(RM)訓練過程中的人類回饋,而正是這種不一致可能導致獎勵盜版。
正如研究人員指出的那樣,找到解決方案很重要:
「這種賞金盜版現象引發了許多問題。
首先,它會降低效能,表現為語言上有缺陷或不必要的詳細結果,不能反映真正的人類偏好。
其次,由於 RM 代理的不可靠性,它使控制點的選擇變得複雜,這與古德哈特定律相呼應:“當一項措施成為目標時,它就不再是一個好的措施。”
第三,它可能會產生同情或放大社會偏見,反映出回饋提供者的狹隘和偏見的人口統計。
最後,也是最關鍵的是,獎勵盜版造成的錯位可能會增加安全風險,特別是考慮到法學碩士快速融入日常生活和關鍵決策中。 」
加權平均獎勵模型(WARM)
Google DeepMind 研究人員開發了一種名為權重平均獎勵模型(WARM)的系統,該系統透過組合多個單獨的獎勵模型(每個模型都有細微的差異)來創建代理模型。 使用 WARM,隨著獎勵模型 (RM) 數量的增加,它們會一起平均,結果顯著改善,系統避免了標準模型出現的可靠性突然下降的情況。
WARM 系統由於使用了多個較小的模型,因此具有記憶體效率高的優點,並且不會減慢模型提供答案的能力,並且能夠抵抗獎勵駭客攻擊。
WARM也使得模型在處理變更的資料時更加可靠和一致,並且更加一致。
引起我注意的是它遵循「更新的機器學習範式」的能力,這是指 WARM 透過合併新資料或隨著時間的推移而發生的變化來適應和改進的能力,而不需要從零開始
在下面的引用中,WA 代表加權平均,RM 代表獎勵模型。
研究人員解釋:
「WARM 代表了一種靈活務實的方法,可以提高人工智慧與人類價值和社會規範的一致性。
…WARM 遵循可升級的機器學習範例,消除了伺服器到伺服器通訊的需要,從而允許 RM 的極其簡單的並行化。
這有利於其在資料必須保持私有的聯邦學習場景中的使用; 此外,WA 將透過減少私人偏好記憶來增加一層隱私和偏見緩解措施。 然後,WARM 的一個簡單擴充將結合在不同資料集上訓練的 RM,例如來自不同標記器(池)的 RM。
……此外,由於 WA 已被證明可以限制災難性遺忘,WARM 可以完美支持迭代和不斷發展的偏好。
限制
這項研究指出了更多改進人工智慧的方法,但它並不是一個完整的解決方案,因為它有固有的限制。 問題之一是它並沒有完全消除所有形式的“偏好資料中固有的虛假相關性或偏差」。
然而,他們對 WARM 的未來持樂觀態度:
“我們的實證結果證明了其在應用於抽象時的有效性。我們預計 WARM 將有助於打造更一致、透明和有效的人工智慧系統,鼓勵對獎勵模型的進一步探索。”
閱讀研究論文:
熱門:平均體重獎勵模型的好處
精選圖片由 Shutterstock/Mansel Birst 提供