ChatGPT 宣布推出新版本的 ChatGPT,可以接受音訊、圖像和文字輸入,也可以產生音訊、圖像和文字輸出。 OpenAI 將新版本的 ChatGPT 稱為 4o,其中“o”代表“omni”,這是一個複合詞,意思是“全部”。
ChatGPT 4o (Omni)
OpenAI 將 ChatGPT 的新版本描述為朝著更自然的人機互動的進步,它以與人與人對話相同的速度響應用戶輸入。 新版本在英語方面與 ChatGPT 4 Turbo 相匹配,在其他語言方面明顯優於 Turbo。 API 效能顯著提高,速度提高,運作成本降低 50%。
廣告中解釋:
「根據傳統基準測試,GPT-4o 在文字、推理和編碼智慧方面實現了 GPT-4 渦輪級性能,同時在多語言功能、音訊和視覺方面設定了新的高水位標記」。
高級語音處理
先前的語音通訊方法涉及連接三個不同的模型來處理語音到文本輸入的轉錄,其中第二個模型(GPT 3.5 或 GPT-4)處理它並輸出文本,第三個模型將文本轉錄回音訊。 據說這種方法在不同的翻譯中會失去細微差別。
OpenAI 概述了先前方法的缺點,而新方法(大概)克服了這些缺點:
「這個過程意味著主要情報來源GPT-4丟失了大量信息:它無法直接觀察音調、各種揚聲器或背景噪音,也無法發出笑聲、唱歌或表達情感。”
新版本不需要三種不同的模型,因為所有輸入和輸出都在一個模型中一起處理,以實現端對端音訊輸入和輸出。 有趣的是,OpenAI 聲稱他們尚未探索新模型的全部功能或完全理解其限制。
新的 Rails 和迭代版本
OpenAI GPT 4o 包含新的護欄和過濾器,以確保其安全並防止不必要的語音輸出,以確保安全。 然而,今天的公告稱,他們在發佈時僅實現文字和圖像輸入功能以及有限的文字和音訊輸出。 GPT 4o 適用於免費和付費套餐,Plus 用戶的訊息限制提高了 5 倍。
音訊功能計劃在幾週內向 ChatGPT Plus 和 API 用戶發布有限的 alpha 版本。
廣告中解釋:
「我們認識到GPT-4o 的音訊模式帶來了各種新的風險。今天我們將發布文字和圖像輸入以及文字輸出。在接下來的幾周和幾個月裡,我們將透過進一步培訓致力於技術基礎設施和可用性以及釋放其他模式所需的安全性,例如,在發佈時,音訊輸出將僅限於選擇預先定義的聲音,並且符合我們現有的安全策略。
閱讀公告:
你好 GPT-4o
精選圖片由 Shutterstock/Photo For Everything 提供