Close Menu
網上營銷專家 BLOG網上營銷專家 BLOG

    訂閱最新賺錢貼士

    獲取網上營銷專家 Online Marketing Leader 最新 網上創業 | 小本創業 | 批發 | 代購 | 網上推廣 | SEO | Dropshipping | 賺錢 | 網店製作貼士!

    熱門討論

    預先做好網上創業準備:為何比失業後再考慮更有利?

    October 21, 2024

    沒有網上快速致富的方法 – 不要落入“輕鬆賺錢”的陷阱!

    October 8, 2024

    為什麼要自己學懂在韓國直接以批發價入貨或直接從韓國時裝批發 agent 補貨?

    October 8, 2024
    Facebook Instagram YouTube WhatsApp
    網上營銷專家 BLOG網上營銷專家 BLOG
    Trending
    • 預先做好網上創業準備:為何比失業後再考慮更有利?
    • 沒有網上快速致富的方法 – 不要落入“輕鬆賺錢”的陷阱!
    • 為什麼要自己學懂在韓國直接以批發價入貨或直接從韓國時裝批發 agent 補貨?
    • 在網上銷售韓國時裝是需要講求技巧的
    • 為什麼要自己學懂營運及製作網上時裝店?
    • 10 個頁面會影響全站排名嗎?
    • Pod Digital Media 如何利用創新為品牌提供有意義的聯繫
    • ChatGPT 幫助您開展業務的 5 種方式
    Facebook Instagram YouTube WhatsApp
    • 首頁
    • 網店創業
      • 日貨網店創業課程
      • AI 韓國時裝網店創業課程
      • Amazon FBA 網店創業課程
      • AI Dropshipping 網店創業
      • 零成本網上創業
    • 網上推廣
      • Facebook 廣告行銷推廣課程
      • Canva 社交媒體應用課程
      • AI 數碼內容營銷課程
      • 社交媒體推廣
      • 多媒體推廣
      • 網上營銷
      • 聯盟行銷
    • 韓國批發
      • 3日2夜韓國批發創業課程
      • 韓國童裝批發代購課程
      • 韓國供應商資料
    • 日本批發
    • 泰國批發
    • 廣州十三行批發
    • 被動收入
    • SEO 優化
    • 折扣優惠
    網上營銷專家 BLOG網上營銷專家 BLOG
    Home » Google DeepMind RecurrentGemma 優於 Transformer 模型
    SEO

    Google DeepMind RecurrentGemma 優於 Transformer 模型

    onlineadminBy onlineadminApril 22, 202401 Min Read
    Facebook Twitter Pinterest LinkedIn Tumblr WhatsApp Reddit Email
    Share
    Facebook Twitter LinkedIn Pinterest Email

    Google DeepMind 發表了一篇研究論文,提出了一種名為RecurrentGemma 的語言模型,它可以匹配或超過基於Transformer 的模型的性能,同時具有更高的內存效率,有望在資源有限的環境中實現高語言模型性能。

    研究論文提供了一個簡短的概述:

    「介紹一下RecurrentGemma,這是一種使用Google 新Griffin 架構的開放語言模型。Griffin 將線性遞歸與局部注意力相結合,以實現出色的語言性能。它具有固定大小的狀態,這可以減少記憶體使用,並允許對長序列進行高效推理。 」。

    與傑瑪的聯繫

    Gemma 是一個開放式模型,採用了 Google 頂尖的 Gemini 技術,但重量輕,可在筆記型電腦和行動裝置上運行。 與 Gemma 類似,RecurrentGemma 也可以在資源受限的環境中運作。 Gemma 和 RecurrentGemma 之間的其他相似之處在於預訓練資料、指令調整和 RLHF(來自人類回饋的強化學習)。 RLHF 是一種利用人類回饋來訓練模型進行自我學習的方法,用於產生人工智慧。

    格里芬建築

    新車型基於幾個月前發布的名為 Griffin 的混合動力車型。 Griffin 被稱為「混合」模型,因為它使用兩種類型的技術,一種允許它有效地處理長資訊序列,另一種允許它專注於輸入的最新部分,這使其能夠過程。 與基於變壓器的模型相比,在相同的時間內「顯著」更多的數據(增加的吞吐量),並且還減少了延遲(延遲)。

    格里芬的研究論文提出了兩種模型,一種稱為“鷹”,另一種稱為“格里芬”。 格里芬的研究論文解釋了為什麼這是一個突破:

    「…我們憑經驗驗證了Hawk 和Griffin 的推理時間優勢,並觀察到與我們的Transformer 基線相比,延遲減少了,性能顯著提高了。最後,Hawk 和Griffin 表現出了在比訓練時間更在長的序列中進行推斷的能力,並且這些發現強烈表明,我們提出的模型為受到全球關注的變壓器提供了強大而有效的替代方案。

    Griffin 和 RecurrentGemma 之間的差異在於模型如何處理輸入資料(輸入嵌入)相關的修改。

    進步

    研究論文聲稱,RecurrentGemma 提供了與更傳統的 Gemma-2b 變壓器模型相似或更好的性能(該模型使用 3 兆個令牌進行訓練,而 RecurrentGemma 則使用 2 兆個令牌進行訓練)。 這是研究論文標題為「Moving Past Transformer Models」的部分原因,因為它展示了一種無需變壓器架構的高資源開銷即可實現更高性能的方法。

    相對於 Transformer 模型的另一個優勢是減少了記憶體使用量並加快了處理時間。 研究論文解釋:

    「RecurrentGemma 的一個關鍵優勢是,它的狀態大小比長序列中的Transformer 小得多。雖然Gemma 的KV 快取與序列的長度成比例增長,但RecurrentGemma 的狀態是有界的,並且在長度超過本地註意視窗大小的序列中不會增加2k 個令牌因此,雖然 Gemma 可以自回歸產生的最長樣本受到主機上可用記憶體的限制,但 RecurrentGemma 可以產生任意長度的序列。

    RecurrentGemma 在效能上也優於 Gemma Transformer 模型(可處理的資料量,越高越好)。 Transformer 模型的表現會因序列長度增加(標記或單字數量增加)而受到影響,但 RecurrentGemma 的情況並非如此,它能夠保持高效能。

    研究論文顯示:

    「在圖 1a 中,我們繪製了在一系列生成持續時間內從 2k 代幣請求中採樣時實現的吞吐量。吞吐量計算了我們在單一裝置 TPUv5e 上每秒可以採樣的最大代幣數量。

    …RecurrentGemma 在考慮的所有序列長度上都實現了更高的性能。 RecurrentGemma 實現的效能不會隨著序列長度的增加而降低,而 Gemma 實現的效能會隨著快取的成長而降低。

    復發性 Gemma 局限性

    研究論文表明,這種方法有其自身的局限性,其性能落後於傳統的變壓器模型。

    研究人員強調了變壓器模型能夠處理的超長序列的限制。

    根據文件:

    “雖然 RecurrentGemma 模型對於較短的序列非常有效,但在處理超出局部注意力窗口的極長序列時,它們的性能可能落後於 Gemma-2B 等傳統 Transformer 模型。”

    這對現實世界意味著什麼?

    這種方法對語言模型的重要性在於,它表明還有其他方法可以提高語言模型的效能,同時在非轉換模型架構中使用較少的運算資源。 這也表明,無變壓器模型可以克服變壓器模型快取大小的限制之一,這往往會增加記憶體使用量。

    這可能會導致在不久的將來語言模型應用程式可以在資源受限的環境中工作。

    閱讀 Google DeepMind 研究論文:

    RecurrentGemma:傳遞 Transformers 以實現高效率的開放語言模型 (PDF)

    精選圖片由 Shutterstock/Photo For Everything 提供

    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    onlineadmin
    • Website

    Related Posts

    為什麼要自己學懂營運及製作網上時裝店?

    October 8, 2024

    10 個頁面會影響全站排名嗎?

    June 10, 2024

    谷歌悄然修復了搜尋結果中的網站名稱

    June 9, 2024
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    預先做好網上創業準備:為何比失業後再考慮更有利?

    October 21, 2024

    沒有網上快速致富的方法 – 不要落入“輕鬆賺錢”的陷阱!

    October 8, 2024

    為什麼要自己學懂在韓國直接以批發價入貨或直接從韓國時裝批發 agent 補貨?

    October 8, 2024
    Don't Miss

    預先做好網上創業準備:為何比失業後再考慮更有利?

    By onlineadminOctober 21, 2024 網店創業

    在不確定的經濟環境中,越來越多的人開始探索網上商業模式,期望能夠賺取額外收入,甚至轉變成全職事業。然而,很多人在失業或工作不穩定時才開始考慮創業,這種做法其實存在一些潛在風險和挑戰。相反,預先做好網上創業的準備,無論你目前的職業狀況如何,都能讓你在面對不確定性時更具彈性和應對能力。 在這篇文章中,我們將深入探討為何預先做好網上創業的準備,比起等到失業或面對工作危機時才考慮,會為你帶來更多優勢。 1. 掌握主動權,避開被動局面 一個人在失業後才決定創業,往往是在沒有其他選擇的情況下做出的選擇,這樣的創業動機可能較為被動。當你在職場上仍有穩定收入時開始準備創業,你便能以更從容的心態去進行市場調查、產品開發和品牌規劃,而不會因為經濟壓力而倉促做決定。 此外,網上創業需要的資源並不僅僅是時間和金錢,還有學習如何操作電子商務平台、建立品牌形象、掌握數碼行銷技巧等。這些都是需要時間去學習和實踐的,如果在失業後才匆忙上手,可能會導致決策失誤或錯失商機。而預先做好準備,你可以慢慢累積經驗,逐步調整自己的策略,讓創業過程更具可控性。 2. 資金與資源的準備時間 創業無論大小,都需要一定的資金投入,即使是網上創業也不例外。這些資金可能包括網站搭建、產品庫存、廣告推廣、工具訂閱等。失業後才開始創業,可能面臨資金不足的困境。而如果你在職時已經開始儲備創業資金,甚至能夠利用一部分收入投入創業,便能夠大幅減少財務壓力,讓你有更好的條件去經營業務。 同時,預先開始準備創業,還能幫助你找到適合的供應鏈合作夥伴、技術支援和行銷渠道。這些資源的建立需要時間和網絡,當你在穩定狀態下經營創業準備時,能夠更仔細地篩選和安排這些合作關係,確保日後正式開展業務時能夠順利進行。 3. 時間管理與創業學習的平衡 網上創業需要學習的技能眾多,例如電子商務平台的操作、數碼行銷、內容創作、SEO優化等。這些技能需要時間去熟練掌握。如果你是在失業後才開始學習這些,可能會面臨時間和壓力的雙重挑戰。然而,如果你在還有穩定收入的情況下,便能更有彈性地分配時間來學習這些技能。 例如,你可以利用下班時間參加網上創業課程,在週末開始嘗試小規模經營,從中學習如何與顧客溝通、處理物流等問題。這種漸進式的學習和實踐,能夠讓你在未來面對創業全職化時,有更好的基礎和信心。 4.…

    沒有網上快速致富的方法 – 不要落入“輕鬆賺錢”的陷阱!

    October 8, 2024

    為什麼要自己學懂在韓國直接以批發價入貨或直接從韓國時裝批發 agent 補貨?

    October 8, 2024
    Stay In Touch
    • Facebook
    • Instagram
    • YouTube
    • WhatsApp

    Follow Me!

    廣州十三行批發
    頁面
    • 關於我們
    • 聯絡我們
    • DMCA
    • Privacy Policy
    • Terms and Condition
    • Disclaimer
    精選推薦

    預先做好網上創業準備:為何比失業後再考慮更有利?

    October 21, 2024

    沒有網上快速致富的方法 – 不要落入“輕鬆賺錢”的陷阱!

    October 8, 2024

    為什麼要自己學懂在韓國直接以批發價入貨或直接從韓國時裝批發 agent 補貨?

    October 8, 2024

    訂閱最新賺錢貼士

    獲取網上營銷專家 Online Marketing Leader 最新 網上創業 | 小本創業 | 批發 | 代購 | 網上推廣 | SEO | Dropshipping | 賺錢 | 網店製作貼士!

    Type above and press Enter to search. Press Esc to cancel.