研究人員發現了一種越獄 ChatGPT 4 的新方法,使其不再存在禁止其提供危險建議的障礙。 這種方法被稱為“低資源語言越獄”,整體成功率高達 79%,令人印象深刻。
越獄ChatGPT
越獄這個詞用來描述繞過 iPhone 軟體限制以解鎖禁止修改的行為。
當應用於 ChatGPT 時,這意味著繞過阻止 ChatGPT 提供有害資訊的安全「鐵路」。
例如,研究人員能夠讓 GPT-4 提供有關如何從商店盜竊的說明,建議在商店繁忙的時候進行盜竊。
錯誤的安全感
研究人員強調,生成式人工智慧的安全措施並不充分,因為 ChatGPT 開發人員將精力集中在擊敗英語攻擊上,無意中在可被利用的「資源匱乏的語言」中造成了漏洞。
低資源語言是指大型語言模型尚未暴露於任何安全訓練或尚未推廣到其他語言的資料的語言。
建議建造更堅固的欄桿的唯一方法是用資源匱乏的語言創建新的資料集。
研究論文指出,目前對英語基準的關注造成了錯誤的安全感。
顯然發生的事情是,LLM 安全研究人員低估了大型語言模型使用未向他們提供安全訓練資料的語言的能力。
研究人員指出:
「在許多情況下,將 GPT-4 回應翻譯成英語會得到一致、切題且具有破壞性的結果。
這表明 GPT-4 能夠理解並產生資源匱乏語言的惡意內容。”
ChatGPT 越獄成功的螢幕截圖
多語言越獄是如何被發現的
研究人員將不安全提示翻譯成十二種語言,然後將結果與其他已知的越獄方法進行比較。
他們發現,將有害線索翻譯成祖魯語或蘇格蘭蓋爾語會以接近 50% 的速度引發 GPT-4 的有害反應。
從這個角度來看,使用英文原版說明書的成功率還不到1%。
該技術並不適用於所有資源匱乏的語言。
例如,使用苗語和瓜拉尼語在產生無意義的反應方面取得了不太成功的結果。
其他時候,GPT-4 會將請求翻譯成英文,而不是發布惡意內容。
這是測試語言的分佈以及以百分比表示的成功率。
語言和成功率
- 祖魯語 53.08
- 蘇格蘭蓋爾語 43.08
- 苗族28.85
- 瓜拉尼 15.96
- 孟加拉語 13.27
- 泰語10.38
- 希伯來書 7.12
- 印地語 6.54
- 現代標準阿拉伯語 3.65
- 簡體中文2.69
- 烏克蘭語2.31
- 義大利語 0.58
- 英文(無翻譯)0.96
研究人員向 OpenAI 發出警報
研究人員指出,他們在公開此資訊之前向 OpenAI 發出了關於 GPT-4 多語言漏洞的警報,這是進行漏洞發現的正常且負責任的方法。
不過,研究人員表示希望這項研究能鼓勵採取更強有力的安全措施,並將更多語言納入考量。
閱讀原始研究論文:
適用於低資源語言的越獄 GPT-4 (PDF)