Brave 宣布了其新的專注於隱私的人工智慧搜尋引擎,名為 Answer with AI,為自己的數十億網站搜尋索引提供支援。 其目前的搜尋引擎每年已服務 100 億次搜尋查詢,這意味著 Brave 的人工智慧搜尋引擎現已成為最大的線上人工智慧搜尋引擎之一。
搜尋行銷和電子商務社群中的許多人都對人工智慧搜尋引擎帶來的網路未來表示焦慮。 Brave 的人工智慧搜尋引擎仍然顯示鏈接,最重要的是,它不會默認使用人工智慧來回應商業或交易查詢,這對於 SEO 和線上企業來說應該是個好消息。 Brave 重視網路生態系統,並將監控網站存取模式。
《搜尋引擎雜誌》採訪了Brave 的搜尋主管Josep M. Pujol,他回答了有關搜尋索引、它如何與人工智慧配合使用的問題,最重要的是,分享了SEO 和企業主需要了解的提高排名的知識。
AI 解答由 Brave 提供支援
與其他人工智慧搜尋解決方案不同,Brave 的人工智慧搜尋引擎完全由其自己的爬行和排名網站搜尋索引提供支援。 所有底層技術,從搜尋索引到大語言模型(LLM)甚至檢索增強生成(RAG)技術,都是由 Brave 開發的。 從隱私角度來看,這特別好,也使 Brave 搜尋結果獨一無二,進一步將其與其他模仿搜尋引擎的替代方案區分開來。
搜尋技術
搜尋引擎本身是內部開發的。 Brave 搜尋主管 Josep M. Pujol 表示:
「我們可以在查詢時存取所有索引、超過 200 億個頁面,這意味著我們可以即時提取任意資訊(模式、表格、片段、描述等)。 此外,我們非常詳細地說明了要使用的數據,從頁面上的段落或整個文字到表格中的單一句子或行。
鑑於我們有一個完整的搜尋引擎可供使用,重點不是檢索,而是選擇和分類。 此外,在我們的索引頁上,我們可以訪問用於排名的相同信息,例如評級、受歡迎程度等。 這對於幫助選擇最相關的來源至關重要。
恢復增強世代 (RAG)
搜尋引擎的工作方式是,它具有搜尋索引和大型語言模型,加上檢索增強生成 (RAG) 技術,使答案保持新鮮且基於事實。 我詢問了 RAG 的情況,Josep 確認它的運作方式是這樣的。
他回答說:
「你說得對,我們的新功能使用了RAG。事實上,我們已經在2023 年3 月發布的上一個摘要功能中使用了這種技術。但是,在這個新功能中,我們正在擴展中使用的資料的數量和品質。
使用大型語言模型
我詢問了新的人工智慧搜尋引擎中使用的語言模型以及它們是如何部署的。
「模型透過 VLLM 部署到 AWS p4 執行個體。
我們使用 Mixtral 8x7B 和 Mistral 7B 的組合作為我們的主要 LLM 模型。
然而,我們也運行幾個自訂轉換器模型來執行輔助任務,例如語義匹配和問題回答。 由於嚴格的延遲要求(10-20 毫秒),這些模型要小得多。
這些輔助任務對我們的功能至關重要,因為它們負責進行最終出現在最終 LLM 指標中的資料選擇; 這些資料可以是依賴查詢的文字片段、模式、表格資料或來自我們的豐富片段的內部結構化資料。 這與能夠檢索大量資料無關,而是與選擇將添加到提示上下文中的候選者有關。
例如,查詢「法國各黨派總統」處理 220 KB 的原始數據,包括從 47 個表和 7 個架構中選擇的 462 行。 訊息大小約為 6500 個令牌,最終回應只有 876 位元組。
簡而言之,你可以說,透過‘AI Answer’,我們從 200 億個頁面變成了數千個清單。
人工智慧如何處理本地搜尋結果
然後我問新的搜尋引擎將如何出現本地搜尋。 我問 Josep 是否可以分享一些人工智慧答案引擎在本地企業中出現的範例場景和查詢。 例如,如果我查詢舊金山最好的漢堡,人工智慧答案引擎會提供答案並連結到它嗎? 它對於制定商務或度假旅行計劃的人有用嗎?
約瑟夫回答:
「Brave Search 索引擁有超過 10 億個基於地點的模式,我們可以從中提取超過 1 億個企業和其他興趣點。
Answer with AI是搜尋+LLM+多種專業機器學習模型和服務的總稱,用於檢索、分類、清理、組合和表示資訊。 我們提到這一點是因為法學碩士並不做出所有決定。 到目前為止,我們主要使用它們來合成非結構化和結構化訊息,這發生在離線操作和查詢時。
有時,最終結果感覺受到LLM的嚴重影響(當我們認為用戶問題的答案是單一興趣點時就是這種情況,例如“檢查法羅美食”),而其他時候他們的工作更加微妙(例如“最好的漢堡”)sf“),透過不同的網路參考產生公司的描述或將公司的類別合併為連貫的分類法。
獲得良好排名的技巧
然後我問使用 Schema.org 的結構化數據是否有助於幫助網站在 Brave 上獲得更好的排名,以及他是否有任何其他關於 SEO 和線上業務的建議。
他回答說:
「在創建 LLM 訊息上下文時,我們肯定會特別關注 schema.org 結構化資料。最好擁有有關您業務的結構化資料(schema.org 標準架構)。這些方案越全面,答案就越精確將。
也就是說,我們的 AI Answer 將能夠顯示有關業務的數據,但不以這些模式顯示,但始終建議以不同的格式重複資訊。
有些企業完全依賴聚合器(Yelp、Tripadvisor、黃頁)來取得其業務資訊。 向公司網站添加模式是有好處的,即使它只是針對爬蟲而言。
Brave 瀏覽器中的人工智慧搜尋計劃
Brave 表示,在不久的將來,他們將把新的人工智慧搜尋功能直接整合到 Brave 瀏覽器中。
約瑟夫解釋:
「我們計劃很快將人工智慧回覆引擎與 Brave Leo(Brave 瀏覽器內建的人工智慧助理)整合。使用者可以選擇將回覆發送給 Leo 並在那裡繼續會話」。
其他事實
Brave 的公告還分享了有關新搜尋引擎的以下事實:
「Brave Search 的生成答案不僅僅是文本。索引和模型之間的深度集成使我們能夠將內聯、上下文和命名實體豐富(為人、地點或事物添加更多上下文的過程)結合起來作為答案這意味著答案將生成文字與其他類型的媒體(包括抽認卡和圖像)結合。
Brave Search 答案引擎甚至可以將索引資料和地理本地結果結合起來,提供有關興趣點的豐富資訊。 迄今為止,Brave Search 索引擁有超過 10 億個基於地點的模式,我們可以從中提取超過 1 億個企業和其他興趣點。 這些清單比任何公共數據集都大,這意味著答案引擎可以為世界各地的熱點提供豐富、即時的結果。
嘗試新的人工智慧搜尋:http://search.brave.com/