研究人員發現了一種克服 GPT4 和 GPT4-Turbo 中的安全障礙的方法,解鎖生成有害和有毒內容的能力,本質上是透過用一種大型語言模型覆蓋另一種大型語言模型來實現。
研究人員發現,使用思想樹 (ToT) 推理來迭代和完善攻擊路線對於破壞另一個大型語言模型非常有用。
他們發現,ToT 方法對 GPT4、GPT4-Turbo 和 PaLM-2 是成功的,使用極少的查詢次數來獲得越獄,平均少於 30 個查詢。
思想樹推理
2022 年 5 月的一篇 Google 研究論文發現了思考提示鏈。
思維鏈(CoT)是產生人工智慧中使用的提示策略,使其遵循一系列步驟來解決問題並完成任務。 CoT 方法通常附有範例,向法學碩士展示這些步驟如何在推理任務中發揮作用。
因此,思考鏈方法不是要求 Midjourney 或 ChatGPT 等生成式 AI 執行任務,而是告訴 AI 如何遵循由一系列步驟組成的推理路徑。
思想樹(ToT)推理,有時也稱為思想樹(單數)本質上是 CoT 的變體和改進,但它們是兩個不同的東西。
思想樹推理與 CoT 類似。 不同之處在於,ToT 不是訓練生成式 AI 遵循單一推理路徑,而是基於一個過程,讓 AI 停止並自我評估多個路徑,然後提出替代步驟。
思想樹推理是在 2023 年 5 月發表的一篇題為《思想樹:使用大型語言模型進行深思熟慮的問題解決》(PDF) 的研究論文中提出的
該研究論文描述了思想樹:
「…我們引入了一種新的語言模型推理框架——思想樹 (ToT),它概括了驅動語言模型的流行思想鏈方法,並能夠探索服務於語言模型的連貫文本單元(思想)。作為解決問題的中間步驟。
ToT 讓 LM 透過考慮多種不同的推理路徑和自我評估選項來執行深思熟慮的決策,以決定下一步的行動方案,並在必要時向前或向後進行全局決策。
我們的實驗表明,ToT 顯著提高了語言模型解決問題的能力…
修剪攻擊樹(TAP)
這種越獄大型語言模式的新方法稱為修剪攻擊樹(TAP)。 TAP 使用兩個 LLM,一個用於攻擊,另一個用於評估。
TAP 能夠明顯優於其他越獄方法,只需要黑盒訪問法學碩士。
在電腦科學中,黑盒子是您可以看到演算法的內容和結果的地方。 但中間發生了什麼事是未知的,所以說是在黑盒子裡。
思考樹推理 (TAP) 用於針對 GPT-4 等目標 LLM,反覆嘗試不同的線索,評估結果,並在必要時在嘗試沒有希望時改變方向。
這稱為迭代和剪枝的過程。 分析每次誘導嘗試以確定成功的機率。 如果攻擊路徑被認為是死胡同,法學碩士將「修剪」該攻擊路徑並開始另一系列更好的提升攻擊。
這就是為什麼它被稱為“樹「思想樹指示不是使用線性推理過程(這是思維鏈(CoT)的標誌),而是非線性的,因為推理過程分支到其他推理領域,例如人類可以做到這一點。
攻擊者發出一系列提示,評估器評估對這些提示的回應,然後透過呼叫找出當前攻擊路徑是否不相關來決定下一個攻擊路徑是什麼,除了這。 它還評估結果以確定尚未測試的適應症可能成功的可能性。
這種方法的顯著之處在於,該過程減少了越獄 GPT-4 所需的請求數量。 此外,與任何其他越獄方法相比,TAP 發現的越獄提示更多。
研究人員指出:
「在這項工作中,我們提出了修剪攻擊樹 (TAP),這是一種生成越獄的自動化方法,只需要對目標 LLM 進行黑盒存取。
TAP 使用 LLM 透過思想樹推理迭代地細化候選(攻擊)線索,直到生成的線索之一越獄目標。
至關重要的是,在向目標發送請求之前,TAP 會對其進行評估並刪除那些不太可能導致越獄的請求。
使用思想樹推理允許 TAP 導航大型查詢搜尋空間,並且修剪可以減少發送到目標的查詢總數。
在實證評估中,我們觀察到 TAP 產生的請求僅使用少量查詢即可對超過 80% 的請求進行越獄最先進的 LLM(包括 GPT4 和 GPT4-Turbo)。 這顯著改進了最先進的黑盒生成越獄方法。”
思想樹 (ToT) 優於思想鏈 (CoT) 推理。
研究論文中得出的另一個有趣的結論是,對於這個特定任務,ToT 推理優於 CoT 推理,即使在 CoT 方法中添加剪枝(剪枝和偏離主題的指示被丟棄)時也是如此。
GPT 3.5 Turbo 的一切都表現不佳
研究人員發現 ChatGPT 3.5 Turbo 與 CoT 的配合效果不佳,揭示了 GPT 3.5 Turbo 的限制。 事實上,GPT 3.5 的表現極為糟糕,成功率從 84% 下降到只有 4.2%。
以下是他對 GPT 3.5 表現不佳的原因的看法:
「我們觀察到評估者的選擇會影響 TAP 的效能:將攻擊者從 GPT4 改為 GPT3.5-Turbo 將成功率從 84% 降低到 4.2%。
成功率降低的原因是 GPT3.5-Turbo 錯誤地確定目標模型已越獄(對於提供的目標),因此搶先停止該方法。
因此,該變體發送的查詢比原始方法少得多…
這對你來說意味著什麼?
雖然研究人員使用 ToT 方法用另一個法學碩士擊敗一個法學碩士很有趣,但它也凸顯了 ToT 在產生令人驚訝的新方向以實現更高水平的產出方面的效用。
- 食品 TL/DR:
- 思想樹提升克服了思想鏈方法
- 與 GPT 4 相比,GPT 3.5 在 ToT 的表現非常差
- 修剪是激勵策略的有用部分
- 研究表明,在推理密集型任務(例如越獄法學碩士)中,ToT 優於 CoT
閱讀原始研究論文:
攻擊樹:自動越獄黑盒法學碩士(PDF)
精選圖片由 Shutterstock/THE.STUDIO 提供