谷歌發布了一個基於用於構建 Gemini 的技術的大型開源語言模型,該模型強大且輕量級,並針對在筆記型電腦或雲端基礎設施等資源受限的環境中使用進行了最佳化。
Gemma 可用於建立聊天機器人、內容生成工具以及語言模型可以執行的幾乎所有其他操作。 這是 SEO 一直在等待的工具。
它有兩個版本,一個有 20 億個參數 (2B),另一個有 70 億個參數 (7B)。 參數的數量顯示模型的複雜性和潛在容量。 具有更多參數的模型可以實現更好的語言理解並產生更複雜的回應,但它們也需要更多的資源來訓練和運行。
Gemma 推出的目標是普及最先進的人工智慧,這些人工智慧經過訓練,開箱即用,安全可靠,並提供一套工具來進一步優化其安全性
DeepMind 的寶石
該模型的開發是輕量級且高效的,非常適合進入更多最終用戶的手中。
谷歌官方公告提出了以下要點:
- 「我們發布了兩種尺寸的模型權重:Gemma 2B 和 Gemma 7B。每種尺寸都發布了經過預訓練和指令調整的變體。
- 新的負責任的生成式人工智慧工具包為使用 Gemma 建立更安全的人工智慧應用程式提供了指導和基本工具。
- 我們使用原生 Keras 3.0 在所有主要框架中提供監督推理和調優 (SFT) 的工具鏈:JAX、PyTorch 和 TensorFlow。
- 即用型 Colab 和 Kaggle 筆記本,以及與 Hugging Face、MaxText、NVIDIA NeMo 和 TensorRT-LLM 等流行工具的集成,讓您可以輕鬆開始使用 Gemma。
- 具有指令的預先訓練和調整的 Gemma 模型可以在您的筆記型電腦、工作站或 Google Cloud 上運行,並可輕鬆部署到 Vertex AI 和 Google Kubernetes Engine (GKE)。
- 多個AI硬體平台的最佳化確保了業界領先的效能,包括NVIDIA GPU和Google Cloud TPU。
- 使用條款允許所有組織(無論規模大小)負責任地進行商業使用和分發。”
傑瑪的分析
根據蘋果機器學習研究科學家 Awni Hannun 的分析,Gemma 經過最佳化,效率很高,因此適合在資源匱乏的環境中使用。
Hannun 觀察到,Gemma 的詞彙量為 250,000 (250k) 個標記,而同類模型的詞彙量為 32k。 其重要性在於,Gemma 可以識別和處理更廣泛的單詞,使她能夠使用複雜的語言來管理任務。 他們的分析表明,這種廣泛的詞彙量提高了模型在不同類型內容上的多功能性。 他還認為他可以在數學、程式碼和其他方面提供幫助。
人們也指出,「嵌入權重」非常巨大(7.5 億)。 嵌入權重是對參數的引用,有助於將單字映射到其含義和關係的表示。
他指出的一個重要特徵是,嵌入權重對單字意義和關係的詳細資訊進行編碼,不僅用於處理輸入部分,還用於產生模型的輸出。 這種共享允許模型在生成文字時更好地利用其對語言的理解,從而提高模型的效率。
對於最終用戶而言,這意味著對模型的反應(內容)更加準確、相關且適合上下文,從而改善其在內容生成以及聊天機器人和翻譯中的使用。
他 他發推文:
「與其他開源模型相比,詞彙量很大:Mistral 7B 的詞彙量為 250K 與 32k
也許它對數學/代碼/其他帶有大量符號的模組有很大幫助。
而且插入權重很大(~750M 參數),因此它們與輸出標頭共享。”
在後續推文中,他還指出了訓練的最佳化,可能會導致更準確和更精細的模型反應,因為它允許模型在訓練階段更有效地學習和適應。
他 他發推文:
“RMS 標準重量有一個單位偏移。
它們不是“x * 重量”,而是“x * (1 + 重量)”。
我想這是一個訓練優化。 通常權重初始化為 1,但很可能它們會初始化為接近 0。與所有其他參數類似。”
他接著說,數據和訓練方面有更多優化,但這兩個因素尤其突出。
設計安全、負責
一個重要的關鍵功能是,它從一開始就被設計為安全的,非常適合部署使用。 訓練資料經過過濾以刪除個人資訊和敏感資訊。 谷歌也使用人類回饋強化學習(RLHF)來訓練負責任的行為模型。
它透過新的手動設備、自動化測試進一步完善,並檢查了不需要的和危險的活動的能力。
谷歌也發布了一套工具來幫助最終用戶進一步提高安全性:
「我們還與 Gemma 一起推出了一個新的負責任的生成式人工智慧工具包,以幫助開發人員和研究人員優先建立安全和負責任的人工智慧應用程式。該工具包包括:
- 安全分類:我們提供了一種新的方法,可以用最少的範例建立強大的安全分類器。
- 調試:模型調試工具可協助您調查 Gem 的行為並解決潛在問題。
- 指導:您可以根據 Google 在開發和實施大型語言模型方面的經驗,獲取建模者的最佳實踐。”
閱讀Google官方公告:
Gemma:展示最先進的新開放模型
精選圖片由 Shutterstock/Photo For Everything 提供