谷歌發表了一篇關於一種名為「Infini-attention」的新技術的研究論文,該技術使其能夠處理具有「無限長上下文」的大量數據,同時可以輕鬆嵌入到其他模型中,從而極大提高其能力。
對Google演算法感興趣的人應該會對最後一部分感興趣。 Infini-attention 是即插即用的,這意味著它相對容易插入其他模型,包括Google核心演算法使用的模型。 關於「無限長上下文」的部分可能會對Google的某些搜尋系統的更新方式產生影響。
研究論文的名稱是: 不留下任何背景:具有無限關注的無限背景的高效轉換器
對法學碩士來說,記憶體的計算成本很高
大型語言模型 (LLM) 對其一次可以處理的資料量有限制,因為計算複雜性和記憶體使用量可能會顯著增加。 Infini-Attention 使法學碩士能夠處理更長的上下文,同時保持所需的記憶體和處理能力較低。
研究論文解釋:
「記憶是智慧的基石,可以根據特定環境進行高效計算。然而,由於注意力機制的性質,Transformer ……和基於 Transformer 的法學碩士……與上下文相關的記憶有限。
事實上,使用標準 Transformer 架構將 LLM 擴展到更長的序列(即 1M 個代幣)具有挑戰性,並且服務越來越長的上下文模型在經濟上變得昂貴。
在其他地方,研究論文解釋:
“由於計算和內存成本成倍增加,電流互感器模型處理長序列的能力受到限制。無限注意力旨在解決這一可擴展性問題。”
研究人員假設,Infini-attention 可以擴展以使用 Transformer 處理極長的序列,而無需通常增加計算和記憶體資源。
三個重要特徵
Google 的Infini focus 透過整合三個功能來解決Transformer 模型的缺點,這些功能允許基於Transformer 的LLM 處理更長的序列而不會出現記憶體問題,並允許它們使用序列中先前資料的上下文,並將其與序列中進一步的上下文相關聯。 序列結束。
Infini-Attention的特點
- 壓縮記憶系統
- 長期線性護理
- 局部蒙蔽注意力
壓縮記憶系統
無限注意力使用所謂的壓縮記憶系統。 隨著輸入更多資料(作為長資料序列的一部分),壓縮記憶體系統會壓縮一些較舊的信息,以減少儲存資料所需的空間量。
長期線性護理
無限注意力也使用所謂的“長期線性注意力機制”,允許 LLM 處理序列中較早存在的數據。
這對於上下文存在於較大資料平面中的任務非常重要。 這就像能夠在所有章節的背景下談論整本書,並解釋第一章與書中間的另一章如何相關。
局部蒙蔽注意力
除了長期注意力之外,無限注意力也使用了所謂的局部屏蔽注意力。 這種類型的注意力處理輸入資料的附近(局部)部分,這對於依賴資料最近部分的回應非常有用。
局部注意力和長期注意力的結合有助於解決 Transformer 受到其可以記住和用於上下文的輸入量限制的問題。
研究人員解釋:
“無限注意力將壓縮記憶納入普通注意力機制中,並將屏蔽局部注意力和長期線性注意力機制納入單個變壓器塊中。”
實驗和測試結果
Infini Attention 在常見模型上進行了測試,以便在涉及長輸入序列的多個基準之間進行比較,例如長上下文語言建模、步驟鍵檢索和書籍摘要任務。 密鑰檢索是一項測試,語言模型必須從極長的文字序列中檢索特定資料。
三項測試清單:
- 長上下文的語言建模
- 訪問鍵測試
- 本書概要
長上下文語言建模和困惑度分數
研究人員寫道,具有無限注意力的模型優於參考模型,並且增加訓練序列的持續時間可以帶來更大的改進 困惑度得分。 困惑度分數是衡量語言模型表現的指標,分數越低表示表現越好。
研究人員分享了他們的發現:
「Infini-Transformer 超越了 Transformer-XL 和 Memorizing Transformer 的基線,同時保持的內存參數比 Memorizing Transformer 模型少 114 倍,並且具有基於向量檢索的 KV 內存,第九層長度為 65K Infini-Transformer 超越了內存長度為65K的記憶體變壓器,壓縮比達到114倍。
我們進一步將訓練序列長度從 32K 增加到 100K,並在 Arxiv-math 資料集上訓練模型。 100K 訓練進一步將線性和線性 + Delta 模型的困惑度分數降低至 2.21 和 2.20。
訪問鍵測試
密鑰測試是將隨機數隱藏在長文字序列中,任務是模型必須取得隱藏文字。 密鑰隱藏在長文本的開頭、中間或結尾。 該模型能夠解決長達 100 萬長度的密鑰測試。
「1B LLM 可以自然地擴展到1M 的序列長度,並在註入Infini 注意力時解決訪問密鑰恢復任務。當使用5K 長度條目調整時,Infini-Transformers 解決了上下文長度高達1M 的密碼密鑰任務。我們報告了長度從 32K 到 1M 的長條目的不同部分(開始/中間/結束)中隱藏步驟金鑰的令牌級恢復精度。
書本總結測試
Infini-attention 在本書的總結測試中也表現出色,擊敗了最佳基準並達到了最先進 (SOTA) 性能的新水平。
結果描述:
「最後,我們展示了具有無限注意力的 8B 模型經過持續的預訓練和任務調整,在 500K 長的書籍摘要任務上達到了新的 SOTA 結果。
…我們透過持續訓練輸入長度為 8K 的 LLM 8B 模型,執行 30K 步,進一步擴展了我們的方法。 然後,我們改編了書籍摘要任務 BookSum(Kry´sci´nski 等人,2021),其目標是產生整個書籍文本的摘要。
我們的模型超越了之前的最佳結果,並透過處理書籍的整個文本在 BookSum 中實現了新的 SOTA。 ……有一個明顯的趨勢表明,透過從書中提供更多文字作為輸入,我們的 Infini-Transformers 可以提高其匯總性能指標。
無限注意力對 SEO 的影響
Infini-attention 是長程和短程注意力建模的突破,比以前沒有 Infini-attention 的模型更有效率。 它還支援“持續的即插即用預先訓練和設計適應長上下文”這意味著它可以輕鬆整合到現有模型中。
最後, 「持續的先前訓練和對長期背景的適應」使其成為必須不斷添加新資料流以訓練模型的場景的理想選擇。 最後一部分非常有趣,因為它對於 Google 搜尋系統後端的應用程式非常有用,特別是當您需要能夠解析長資訊序列並了解序列開頭附近部分的相關性時。 到接近結尾的另一部分。
研究人員聲稱“無限長的條目”這一事實令人難以置信,但對於SEO 來說真正重要的是,這種機制能夠處理長數據序列,以便“不留下任何上下文”,以及“即插即用」發揮它的一個面向。 它給出了一個想法:如果谷歌在其核心演算法中採用無限注意力系統,那麼谷歌的一些系統可以如何改進。
閱讀研究論文:
不留下任何背景:具有無限關注的無限背景的高效轉換器
精選圖片由 Shutterstock/JHVEPhoto 提供