Inflection AI,PI AI 個人助理的創建者宣布創建一個名為 Inflection-2 的大型且強大的新語言模型,該模型在許多基準資料集上優於 Google 的 PaLM 語言模型。
私人助理皮
Pi 是一款個人助理,可以在網路上使用,也可以作為適用於 Android 和 Apple 行動裝置的應用程式。
它還可以添加為 WhatsApp 上的聯絡人,並透過 Facebook 和 Instagram 直接訊息進行存取。
Pi 被設計為一個聊天機器人助手,可以回答問題、研究產品、科學或產品中的任何內容,並且可以充當提供建議的討論夥伴。
新的法學碩士將在接受安全測試後不久加入 PI AI。
Inflection-2 大語言模型
Inflection-2是一個大型語言模型,超越了Google的PaLM 2 Large模型,後者是目前Google最複雜的模型。
Inflection-2 在多個基準測試中進行了測試,並與 Meta 的 PaLM 2 和 LLaMA 2 以及其他大型語言模型 (LLM) 進行了比較。
例如,在自然問題語料庫(現實世界問題的資料集)上,Google 的 PaLM 2 的表現勉強優於 Inflection-2。
PaLM 2 得分為 37.5,Inflection-2 得分為 37.3,均擊敗了得分為 33.0 的 LLaMA 2。
MMLU – 大規模多工語言理解
Inflection AI 在 MMLU 資料集上發布了基準分數,該資料集旨在以與測試人類類似的方式測試法學碩士。
該測驗涵蓋 57 個 STEM(科學、技術、工程和數學)科目以及法律等廣泛的其他科目。
此資料集的目的是確定 LLM 的最強項和最弱項。
根據該基準資料集的研究論文:
「我們提出了一種新的測試來衡量文本模型的多任務準確性。
該測驗涵蓋了 57 項任務,包括基礎數學、美國歷史、電腦科學、法律等。
為了在這項測試中獲得高精度,模型必須具備廣泛的世界知識和解決問題的能力。
我們發現,雖然較新的模型具有接近隨機的精度,但最大的 GPT-3 模型比隨機模型平均提高了近 20 個百分點。
然而,在 57 項任務中的每一項中,最好的模型仍需要大量改進才能達到專家級的準確性。
這些模型還具有平衡的性能,並且通常不知道何時出錯。
更糟的是,它們在道德和法律等一些社會重要主題上的準確性近乎隨機。
透過全面評估學術和專業對模型理解的廣度和深度,我們的測試可用於分析許多任務的模型並找出重要的缺陷。”
以下是 MMLU 基準資料集分數(以從最弱到最強的順序排列):
- 美洲駝 270b 68.9
- GPT-3.5 70.0
- 格羅克-1 73.0
- PaLM-2 大號 78.3
- 克勞德-2 _CoT 78.5
- 屈折2 79.6
- GPT-4 86.4
從上面可以看出,只有 GPT-4 的得分高於 Inflection-2。
MBPP – 數學推理和程式碼效能
Inflection AI 在數學和程式碼推理測試中對 GPT-4、PaLM 2、LLaMA 和 Inflection-2 進行了頭對頭的比較,考慮到它沒有經過專門訓練來解決數學問題,它的表現出乎意料地好。
使用的基準測試資料集稱為 MBPP(主要是基本 Python 程式設計)該資料集由 1000 多個眾包 Python 程式設計問題組成。
得分特別引人注目的是 Inflection AI 是針對 PaLM-2S 進行測試的,PaLM-2S 是一種專門針對編碼進行調整的大變體語言模型。
MBPP分數:
- LAMA-2 70B: 45.0
- 帕LM-2S: 50.0
- 變形2: 53.0
MBPP 完整分數截圖
測試 HumanEval 資料集
Inflection-2 在 OpenAI 開發和發布的 HumanEval 問題解決資料集上也優於 PaLM-2。
Hugging Face 描述了這個資料集:
「OpenAI 發布的 HumanEval 資料集包含 164 個程式設計問題,包括函數簽章、文件、主體和各種單元測試。
它們是手寫的,以確保它們不包含在程式碼生成模型的訓練集中。
程式設計問題是用 Python 編寫的,並在註釋和文件字串中包含自然的英文文字。
該數據集是由 OpenAI 工程師和研究人員手工製作的。”
以下是分數:
- LAMA-2 70B: 29.9
- 帕LM-2S: 37.6
- 變形2: 44.5
- GPT-4: 67.0
從上面可以看出,只有 GPT-4 的得分高於 Inflection-2。 然而,應該再次指出的是,Inflection-2 並不是為了解決這些類型的問題而進行調整的,這使得這些分數成為了令人印象深刻的成就。
完整 HumanEval 分數的螢幕截圖
Inflection AI 解釋了為什麼這些分數很重要:
“數學結果和編碼基準。
儘管我們 Inflection-2 的主要目標不是優化這些編碼技能,但我們在兩個預訓練模型中都看到了良好的表現。
透過微調代碼豐富的數據集,可以進一步提高我們模型的編碼能力。”
更強大的LLM即將到來
Inflection AI 的公告稱,Inflection-2 在 5,000 個 NVIDIA H100 GPU 上進行了訓練。 他們計劃在 22,000 個 GPU 叢集上訓練一個更大的模型,比訓練 Inflection-2 的 5,000 個 GPU 叢集大幾個數量級。
谷歌和 OpenAI 面臨著來自封閉和開源新創公司的激烈競爭。 Inflection AI 加入了正在開發的強大人工智慧新創公司行列。
PI Personal Assistant 是一個對話式 AI 平台,其底層技術非常先進,有可能比其他收費存取平台更強大。
閱讀官方公告:
Inflection-2:下一步
造訪 PI 線上個人助理
精選圖片由 Shutterstock/Malchevska 提供