Google DeepMind 發表了一篇研究論文,提出了一種名為RecurrentGemma 的語言模型,它可以匹配或超過基於Transformer 的模型的性能,同時具有更高的內存效率,有望在資源有限的環境中實現高語言模型性能。
研究論文提供了一個簡短的概述:
「介紹一下RecurrentGemma,這是一種使用Google 新Griffin 架構的開放語言模型。Griffin 將線性遞歸與局部注意力相結合,以實現出色的語言性能。它具有固定大小的狀態,這可以減少記憶體使用,並允許對長序列進行高效推理。 」。
與傑瑪的聯繫
Gemma 是一個開放式模型,採用了 Google 頂尖的 Gemini 技術,但重量輕,可在筆記型電腦和行動裝置上運行。 與 Gemma 類似,RecurrentGemma 也可以在資源受限的環境中運作。 Gemma 和 RecurrentGemma 之間的其他相似之處在於預訓練資料、指令調整和 RLHF(來自人類回饋的強化學習)。 RLHF 是一種利用人類回饋來訓練模型進行自我學習的方法,用於產生人工智慧。
格里芬建築
新車型基於幾個月前發布的名為 Griffin 的混合動力車型。 Griffin 被稱為「混合」模型,因為它使用兩種類型的技術,一種允許它有效地處理長資訊序列,另一種允許它專注於輸入的最新部分,這使其能夠過程。 與基於變壓器的模型相比,在相同的時間內「顯著」更多的數據(增加的吞吐量),並且還減少了延遲(延遲)。
格里芬的研究論文提出了兩種模型,一種稱為“鷹”,另一種稱為“格里芬”。 格里芬的研究論文解釋了為什麼這是一個突破:
「…我們憑經驗驗證了Hawk 和Griffin 的推理時間優勢,並觀察到與我們的Transformer 基線相比,延遲減少了,性能顯著提高了。最後,Hawk 和Griffin 表現出了在比訓練時間更在長的序列中進行推斷的能力,並且這些發現強烈表明,我們提出的模型為受到全球關注的變壓器提供了強大而有效的替代方案。
Griffin 和 RecurrentGemma 之間的差異在於模型如何處理輸入資料(輸入嵌入)相關的修改。
進步
研究論文聲稱,RecurrentGemma 提供了與更傳統的 Gemma-2b 變壓器模型相似或更好的性能(該模型使用 3 兆個令牌進行訓練,而 RecurrentGemma 則使用 2 兆個令牌進行訓練)。 這是研究論文標題為「Moving Past Transformer Models」的部分原因,因為它展示了一種無需變壓器架構的高資源開銷即可實現更高性能的方法。
相對於 Transformer 模型的另一個優勢是減少了記憶體使用量並加快了處理時間。 研究論文解釋:
「RecurrentGemma 的一個關鍵優勢是,它的狀態大小比長序列中的Transformer 小得多。雖然Gemma 的KV 快取與序列的長度成比例增長,但RecurrentGemma 的狀態是有界的,並且在長度超過本地註意視窗大小的序列中不會增加2k 個令牌因此,雖然 Gemma 可以自回歸產生的最長樣本受到主機上可用記憶體的限制,但 RecurrentGemma 可以產生任意長度的序列。
RecurrentGemma 在效能上也優於 Gemma Transformer 模型(可處理的資料量,越高越好)。 Transformer 模型的表現會因序列長度增加(標記或單字數量增加)而受到影響,但 RecurrentGemma 的情況並非如此,它能夠保持高效能。
研究論文顯示:
「在圖 1a 中,我們繪製了在一系列生成持續時間內從 2k 代幣請求中採樣時實現的吞吐量。吞吐量計算了我們在單一裝置 TPUv5e 上每秒可以採樣的最大代幣數量。
…RecurrentGemma 在考慮的所有序列長度上都實現了更高的性能。 RecurrentGemma 實現的效能不會隨著序列長度的增加而降低,而 Gemma 實現的效能會隨著快取的成長而降低。
復發性 Gemma 局限性
研究論文表明,這種方法有其自身的局限性,其性能落後於傳統的變壓器模型。
研究人員強調了變壓器模型能夠處理的超長序列的限制。
根據文件:
“雖然 RecurrentGemma 模型對於較短的序列非常有效,但在處理超出局部注意力窗口的極長序列時,它們的性能可能落後於 Gemma-2B 等傳統 Transformer 模型。”
這對現實世界意味著什麼?
這種方法對語言模型的重要性在於,它表明還有其他方法可以提高語言模型的效能,同時在非轉換模型架構中使用較少的運算資源。 這也表明,無變壓器模型可以克服變壓器模型快取大小的限制之一,這往往會增加記憶體使用量。
這可能會導致在不久的將來語言模型應用程式可以在資源受限的環境中工作。
閱讀 Google DeepMind 研究論文:
RecurrentGemma:傳遞 Transformers 以實現高效率的開放語言模型 (PDF)
精選圖片由 Shutterstock/Photo For Everything 提供