在 Google 年度最大活動(Google I/O)舉行前的幾週,OpenAI 成功吸引了 Google 的注意。 當重大公告發佈時,他們所需要展示的只是比之前的語言模型稍微好一點的語言模型,其中「神奇」的部分甚至在 Alpha 測試中都沒有。
OpenAI 可能讓用戶感覺就像一位母親在母親節收到了吸塵器,但它確實成功地減少了媒體對 Google 重大活動的關注。
字母O
第一個暗示至少存在一些惡意行為的是新 GPT 模型的名稱,即 4 個“o”和字母“o”,就像 Google 活動 I/O 的名稱一樣。
OpenAI 表示,字母 O 代表 Omni,這意味著一切,但這種選擇似乎有潛台詞。
GPT-4o 超賣如魔法
山姆·奧爾特曼 (Sam Altman) 在周五宣布之前的一條推文中承諾了他認為“神奇”的“新東西”:
「沒有 gpt-5,它不是一個搜尋引擎,但我們一直在努力開發一些我們認為人們會喜歡的新東西! 對我來說這就像魔法一樣。
OpenAI 共同創辦人 Greg Brockman 在推特上寫道:
「隆重介紹 GPT-4o,我們的新模型可以即時推理文字、音訊和視訊。
它用途極其廣泛,玩起來很有趣,並且朝著更自然的人機交互形式(甚至人機機交互)邁出了一步:”
公告本身解釋說,ChatGPT 的早期版本使用三種型號來處理音訊輸入。 將音訊輸入轉換為文字的模型。 另一個模型用於完成任務並輸出文字版本,第三個模型用於將文字輸出轉換為音訊。 GPT-4o 的突破在於,它現在可以在單一模型中處理音訊輸入和輸出,並在與人類聆聽和回答問題相同的時間內輸出所有音訊。
但問題是音頻部分還沒上線。 他們仍在努力讓 Rails 正常運作,幾週後才會發布 Alpha 版本供一些用戶試用。 Alpha 版本預計可能存在錯誤,而 Beta 版本通常更接近最終產品。
以下是 OpenAI 對令人失望的延遲的解釋:
「我們認識到GPT-4o 的音訊模式帶來了各種新的風險。今天我們將發布文字和圖像輸入以及文字輸出。在接下來的幾周和幾個月裡,我們將透過進一步培訓致力於技術基礎設施和可用性以及釋放其他方式所需的安全性。
GPT-4o最重要的部分——音訊輸入和輸出已經完成,但安全等級尚未準備好公開發布。
一些失望的用戶
不完整和超賣的產品不可避免地會在社群媒體上產生一些負面情緒。
AI 工程師 Maziyar Panahi(LinkedIn 個人資料)在推特上表達了他的失望:
「我一直在 ChatGPT 上測試新的 GPT-4o (Omni)。沒有留下深刻的印象!一點也沒有!更快、更便宜、多模式,這些不適合我。
翻譯,我就關心這些了,還跟以前一樣偷懶呢!
他接著說:
「我知道對於新創公司和公司來說,最便宜、最快的音訊等。 他們非常有吸引力。 但我只用聊天,那裡看起來幾乎一樣。 至少對於資料分析精靈來說是這樣。
而且,我不認為我的 20 美元能買到任何其他東西。 今天不行!
Facebook 和 X 上的其他人也表達了類似的觀點,儘管許多其他人對他們認為使用 API 的速度和成本的改進感到滿意。
OpenAI 超賣了 GPT-4o?
鑑於 GPT-4o 處於未完成狀態,很難不給人留下這樣的印象:該版本的發佈時間恰逢 Google 的 I/O,並對其造成了損害。 在 Google 大喜之日前夕推出半成品可能會無意中給人留下這樣的印象:當前狀態下的 GPT-4o 只是一次微小的迭代改進。
在目前的狀態下,這並不是革命性的一步,但是一旦模型的音訊部分離開 Alpha 測試階段並進入 Beta 測試階段,我們就可以開始談論模型大語言的革命但到那時,Google和 Anthropic 可能已經在那座山上插上了一面旗幟。
OpenAI 的公告給新模型描繪了一幅黯淡的景象,將效能提升到與 GPT-4 Turbo 相當。 唯一的亮點是對英語以外的語言以及 API 用戶的顯著改進。
OpenAI 解釋道:
- “它在英語文字和程式碼中的性能與 GPT-4 Turbo 的性能相匹配,在非英語文本中顯著改進,同時 API 速度更快且成本便宜 50%。”
以下是六個基準測試的評級,顯示 GPT-4o 在大多數測試中勉強通過 GPT-4T,但在一項有助於理解讀者的重要基準測試中落後於 GPT-4T
以下是分數:
- MMLU(大規模多任務語言理解)
這是數學、科學、歷史和法律等五十多個學科的多工處理和解決問題準確性的基準。 GPT-4o(88.7 分)略領先 GPT4 Turbo(86.9)。 - GPQA(年級 Google 測驗問題和答案參考頁)
這是由生物、化學和物理等各領域的人類專家撰寫的 448 道多項選擇題。 GPT-4o 得分為 53.6,略高於 GPT-4T(48.0)。 - 數學
GPT 4o (76.6) 比 GPT-4T (72.6) 多 4 分。 - 人類評估
這是編碼基準。 GPT-4o (90.2) 比 GPT-4T (87.1) 略勝約 3 個百分點。 - MGSM(多語小學數學參考)
這測試了十種不同語言的法學碩士初級數學技能。 GPT-4o 得分為 90.5,而 GPT-4T 得分為 88.5。 - DROP(段落離散推理)
這是一個由 96,000 個問題組成的基準測試,測試語言模型對段落內容的理解。 GPT-4o (83.4) 的得分比 GPT-4T (86.0) 低近 3 分。
OpenAI 是否用 GPT-4o 來攻擊 Google?
考慮到帶有字母 o 的挑釁性模型,很難不認為 OpenAI 正試圖在 Google 重要的 I/O 大會之前吸引媒體的注意。 無論這是否是有意為之,OpenAI 都設法將其在谷歌即將召開的搜尋會議上受到的關注降到最低。
一個勉強超越其前身的語言模型值得它所受到的所有魅力和媒體關注嗎? 懸而未決的公告主導了Google重大事件的新聞報道,因此對於 OpenAI 來說,答案顯然是肯定的,值得大肆宣傳。
精選圖片由 Shutterstock/BeataGFX 提供