谷歌的生成式搜尋體驗(SGE)原本作為Google實驗室的一項實驗將於 2023 年底到期,但它作為一項實驗的時間卻悄悄延長,這表明 SGE 不會很快進入搜尋領域。 令人驚訝的是,讓微軟帶頭可能是谷歌最好的、也許是意想不到的方法。
谷歌的人工智慧搜尋策略
谷歌決定將 SGE 保留為谷歌實驗室項目,符合谷歌歷史上更廣泛的趨勢,即更喜歡在後台整合人工智慧。
人工智慧的存在並不總是顯而易見,但它成為谷歌搜尋後台一部分的時間比大多數人意識到的要長。
人工智慧在搜尋中的首次使用是作為 Google 排名演算法(稱為 RankBrain 的系統)的一部分。 RankBrain 幫助排名演算法了解搜尋查詢中的單字與現實世界概念的關係。
據谷歌稱:
「當我們在2015 年推出RankBrain 時,它是在搜尋中部署的第一個深度學習系統。在當時,它具有開創性……RankBrain(顧名思義)用於幫助排名或決定最佳搜索結果的最佳順序」。
下一個實作是神經匹配,它幫助Google的演算法理解搜尋查詢和網頁中更廣泛的概念。
谷歌推出的最著名的人工智慧系統之一是統一多任務模型,也稱為GoogleMUM。 MUM 是一個多模式人工智慧系統,涵蓋對圖像和文字的理解,並能夠在句子或搜尋查詢中輸入它們時將它們置於上下文中。
SpamBrain,Google的反垃圾郵件人工智慧可能是Google搜尋演算法中最重要的人工智慧實作之一,因為它有助於清除低品質的網站。
這些都是Google使用後台人工智慧來解決搜尋中不同問題的方法的例子,作為更大的核心演算法的一部分。
谷歌很可能會繼續在後台使用人工智慧,直到基於 Transformer 的大型語言模型 (LLM) 脫穎而出。
但微軟將 ChatGPT 整合到 Bing 中,迫使谷歌採取措施,透過其搜尋生成體驗 (SGE) 提前添加人工智慧。
為什麼將 SGE 保留在 Google 實驗室?
鑑於微軟已將 ChatGPT 整合到 Bing 中,谷歌沒有採取類似步驟並將 SGE 保留在谷歌實驗室中似乎很奇怪。 谷歌的做法有充分的理由。
谷歌使用人工智慧的指導原則之一是,只有當該技術被證明是成功的,並且已經以可信賴的負責任的方式實施時,才使用它,這是生成人工智慧的兩件事沒有今天的能力。
在人工智慧能夠成功融入搜尋前沿之前,至少需要解決三個大問題:
- 法學碩士不能用作資訊檢索系統,因為它必須完全回收才能添加新數據。 。
- 變壓器架構效率低且昂貴。
- 生成式人工智慧往往創造出錯誤的事實,這種現像被稱為幻覺。
為什麼人工智慧不能用作搜尋引擎
在人工智慧用作搜尋引擎的後端和前端之前需要解決的最大問題之一是LLM無法充當不斷添加新資料的搜尋索引。
簡單來說,在普通搜尋引擎中,添加新網頁是搜尋引擎計算文本中單字和短語的語義的過程(稱為「嵌入」的過程),這使得它們可被搜尋和使用。準備整合到索引中。
然後,搜尋引擎必須更新整個索引,以了解(可以這麼說)新網頁適合全域搜尋索引的位置。
新增網頁可以改變搜尋引擎理解和關聯它所知道的所有其他網頁的方式,因此它會遍歷其索引中的所有網頁,並在必要時更新它們之間的關係。 這是一種簡化,旨在傳達向搜尋索引添加新網頁的一般含義。
與目前的搜尋技術不同,LLM 無法將新網頁新增至索引中,因為新增資料需要完全回收整個 LLM。
Google 正在研究如何解決這個問題,創建一個基於 Transformer 的 LLM 搜尋引擎,但問題並沒有解決,甚至還沒有解決。
要理解為什麼會發生這種情況,快速瀏覽一下最近由 Marc Najork 和 Donald Metzler(以及其他幾位合著者)共同撰寫的 Google 研究論文會很有幫助。 我提到他們的名字是因為這兩位研究人員幾乎總是與Google的一些最重要的研究相關。 因此,如果有他們的名字,調查可能就非常重要。
在下面的解釋中,搜尋索引被稱為記憶體,因為搜尋索引是已被索引的內容的記憶體。
該研究論文的標題是:「DSI++:用新文件更新變壓器記憶體」(PDF)
使用LLM作為搜尋引擎是一個使用稱為可微搜尋索引(DSI)的技術的過程。 目前的搜尋索引技術被稱為雙編碼器。
研究論文解釋:
「…使用 DSI 建立索引涉及訓練 Transformer 模型。 因此,每次更新底層語料庫時,都必須從頭開始重新訓練模型,與雙編碼器相比,導致計算成本過高。”
論文繼續探索解決法學碩士「遺忘」問題的方法,但在研究結束時他們表示,他們只是更好地理解了未來研究中需要解決的問題。
他們的結論是:
「在這項研究中,我們探討了與索引器添加新的和不同的文件相關的遺忘現象。值得注意的是,當新文件反駁或修改先前索引的文件時,模型的行為變得不可預測,這需要進一步分析。
此外,我們在更大的資料集(例如完整的 MS MARCO 資料集)上檢查了我們提出的方法的有效性。 然而,值得注意的是,對於這個更大的數據集,該方法表現出一個重要的遺漏。 因此,需要進一步研究來提高模型性能,特別是在處理更大規模的數據集時。”
LLM 無法自我檢查
谷歌和許多其他公司也在研究各種對人工智慧進行事實查核的方法,以避免提供虛假資訊(稱為幻覺)。 但到目前為止,這項研究尚未取得重大進展。
Bing 體驗以 AI 為先
Bing 採取了不同的路線,透過將傳統搜尋引擎與人工智慧介面結合的混合方法,將人工智慧直接整合到其搜尋介面中。 這種新型搜尋引擎徹底改變了搜尋體驗,使 Bing 在搜尋引擎用戶的競爭中脫穎而出。
Bing 的人工智慧整合最初引起了巨大的轟動,吸引了對基於人工智慧的搜尋介面的新穎性感興趣的用戶。 這提高了 Bing 上的用戶參與度。
但經過近一年的熱潮後,Bing 的市佔率僅略有成長。 最近的報告(包括《波士頓環球報》的一份報告)表明,自推出 Bing Chat 以來,市場份額的成長不到 1%。
事後看來,谷歌的策略得到了驗證
必應的經驗表明,處於搜尋引擎前沿的人工智慧可能不會像預期的那樣有效。 市場份額的小幅成長引發了人們對基於聊天的搜尋引擎的長期生存能力的質疑,並驗證了谷歌在後台使用人工智慧的謹慎態度。
鑑於 Bing 未能讓用戶離開 Google 而選擇 Bing,谷歌對搜尋背景下的人工智慧的關注得到了證實。
將人工智慧保留在目前效果最好的後台的策略使谷歌能夠留住用戶,同時人工智慧搜尋技術在其所屬的谷歌實驗室中成熟。
Bing 在前台使用人工智慧的方法現在幾乎可以作為一個警示故事,告訴人們在充分了解技術的好處之前發布技術的陷阱,讓人們深入了解這種方法的局限性。
諷刺的是,微軟正在尋找更好的方法將人工智慧集成為後端技術,以添加到其基於雲端的辦公室產品中的有用功能的形式。
人工智慧研究的未來
人工智慧技術的現狀表明,它作為支援搜尋引擎功能的工具是最有效的,而不是作為搜尋引擎的後端和前端,甚至作為用戶拒絕採用的混合方法。
谷歌只在經過充分測試後才發布新技術的策略解釋了為什麼搜尋生成體驗屬於谷歌實驗室。
人工智慧無疑將在研究中發揮更大膽的作用,但那一天絕對不是今天。 預計谷歌將在其更多產品中添加更多基於人工智慧的功能,微軟也效仿也就不足為奇了。
也可以看看: Google SGE 與搜尋中的生成式 AI:2024 年的預期
精選圖片由 Shutterstock/ProStockStudio 提供