谷歌推出了 Gemini,這是其最先進、最強大的人工智慧 (AI) 模型,具有先進的多模式功能。
這種創新模型代表了人工智慧技術的飛躍,與現有的大型語言模型(LLM)相比,提供了最先進的性能。
Google和Alphabet執行長桑達爾·皮查伊(Sundar Pichai)強調,人工智慧正在塑造一場深刻的技術變革,其影響可能超過行動和網路革命。
他強調了人工智慧在推動創新和經濟進步、增強人類知識、創造力和生產力方面的重要性。
什麼是谷歌雙子座?
Gemini 由執行長兼聯合創始人 Demis Hassabis 領導的 Google DeepMind 開發,證明了 Google 致力於成為人工智慧早期採用者的持續承諾。
我很高興今天能分享我們在 Gemini 的工作! Gemini 是一個多模態模型系列,在圖像、音訊、視訊和文字領域展示了非常強大的功能。 我們功能最強大的型號 Gemini Ultra 在 32 項基準測試中的 30 項中提升了最先進水平… pic.twitter.com/sQfxBy9tpT
— 傑夫‧迪恩 (@🏡) (@JeffDean) 2023 年 12 月 6 日
該模型展示了一系列令人印象深刻的功能,特別是在多模式理解方面,該功能使其能夠無縫處理和組合不同類型的信息,包括文字、程式碼、音訊、圖像和視訊。
Google Gemini Ultra 擊敗 GPT-4
Gemini 1.0是該車型的第一個版本,有三個變體:Gemini Ultra、Gemini Pro和Gemini Nano。

每款產品都針對特定任務進行了最佳化,Gemini Ultra 專為高度複雜的任務而設計,Gemini Pro 適合廣泛的任務,而 Gemini Nano 則適合設備高效的任務。
該模型的表現非常出色,在大規模多任務語言理解(MMLU)方面超越了人類專家,得分為 90.0%。
此外,Gemini Ultra 在大型語言模型研究廣泛使用的 32 個學術基準中的 30 個中優於現有模型。

Gemini 多模式能力與效能
Gemini 的創新多模態方法使其有別於先前的型號。
傳統的多模態模型通常受到其設計的限制,其中涉及針對不同模態訓練單獨的組件,然後將它們連接在一起。
相反,Gemini 是從頭開始建立的,本身就是多模式的,使其能夠更有效地理解和推理多個輸入。

這項功能使 Gemini 成為從科學到金融等領域的強大工具,它可以從大量數據中發現見解,並在數學和物理等複雜主題中提供高級推理。
Google DeepMind 關於 Google Gemin 的報告中的範例展示了 Gemini 的多模式功能,例如影像生成。

在這段影片中,Google用其表情符號廚房測試了 Gemini。
它還可以處理文字、圖像和音頻,如下所示。

來自 Google 的這段影片提供了有關 Gemini 處理原始音訊能力的更多資訊。
Gemini 與外部競爭對手的基準
Google Gemini 與 OpenAI、Inflection、Anthropic、Meta 和 xAI 等頂級人工智慧模型相比如何? 以下是 Gemini Ultra 和 Pro 在與競爭對手的文字比較中的表現。

雙胞胎擅長編碼
除了多模式功能外,Gemini 還擅長程式設計任務。 他理解、解釋和生成多種程式語言的高品質程式碼的能力使他成為編碼領域的領先榜樣。

它還構成了更先進的編碼系統的基礎,例如 AlphaCode 2,可顯著改善競爭性程式設計問題。
Google 內部設計的 v4 和 v5e 張量處理單元 (TPU) 提高了此模型的效率和可擴展性,使其成為最可靠且可擴展的訓練和服務模型。
Google Bard 現已由 Gemini Pro 提供支持
谷歌也宣布對 Bard 進行重大更新,整合 Gemini Pro 以提高 AI 功能。

此更新標誌著 Bard 迄今為止獲得的最大改進。
Gemini Pro 已針對 Bard 進行了調整,顯著提高了其在理解和總結資訊、推理、編碼和規劃方面的表現。

用戶現在可以體驗由 Gemini Pro 支援的 Bard 進行基於文字的交互,並計劃很快將支援擴展到其他模式。
此更新最初在 170 多個國家和地區提供英語版本,很快就會推出到其他語言和地區,包括歐洲。
了解 Gemini 的個人化使用者體驗意圖
影片展示了 Gemini 理解用戶意圖並創造個人化用戶體驗的能力。
它首先了解用戶的目標並收集相關信息,然後進行推理並創建用於探索的自訂介面。
使用者可以根據自己的需求與介面進行互動並接收更多訊息,顯示了Gemini的適應能力和提供個人化體驗的能力。
Google Pixel 8 Pro:首款由 Gemini Nano 驅動的內建 AI 智慧型手機
谷歌的最新更新引入了 Gemini Nano,這是一種先進的人工智慧模型,現已內建在 Pixel 8 Pro 智慧型手機中。
此次更新標誌著 Pixel 8 Pro 成為首款採用 Gemini Nano 並利用 Google Tensor G3 技術的 AI 手機。
主要功能包括“在錄音機上總結”,用於總結設備上的錄音,以及“在 Gboard 上智慧回應”,用於上下文感知文字回應。 這些功能增強了用戶隱私和功能,無需網路連線。
此外,Google也宣布即將對 Pixel 系列的 Assistant with Bard experience 進行改進,進一步擴展 AI 功能。
更新還包括人工智慧對攝影和影片的改進,例如改進的視訊穩定性、夜視影片和照片模糊以提供更清晰的寵物影像。
為了提高生產力,有一些新工具,例如 Pixel Fold 中的雙螢幕預覽、使用 Pixel 手機作為網路攝影機改進的視訊通話以及文件掃描清理。
Google 密碼管理器現在支援金鑰,Pixel 裝置也獲得了修復模式等新的安全功能。 Pixel Watch 推出了便利的手機解鎖和通話選擇功能,而 Pixel 平板電腦則提供清晰通話和空間音訊支援。
谷歌還擴大了其錄音機應用程式的語言支持,並將 Direct My Call 和 Hold for Me 功能擴展到更多地區和設備。
負責任的人工智慧開發
谷歌優先考慮負責任的人工智慧開發,確保對雙子座的偏見和毒性進行全面的安全評估。
該公司與多位專家和外部合作夥伴合作,嚴格測試模型並解決潛在風險。
如何獲得雙子座
Gemini 1.0正在逐步整合到各種Google產品和平台中,很快就會透過Google AI Studio和Google Cloud Vertex AI向開發者和企業客戶開放。
作為 Google 負責任地推動人工智慧的承諾的一部分,Gemini Ultra 在廣泛發布之前將接受廣泛的信任和安全檢查。
谷歌推出Gemini標誌著人工智慧發展的一個重要里程碑。
其先進的功能,從複雜的多模態推理到高效編碼,標誌著人工智慧新時代的開始,為多個領域的創新開闢了非凡的可能性。
特色圖片:VDB 照片/Shutterstock