在OpenAI 最近宣布網路管理員將能夠透過更新其網站的robots.txt 檔案來阻止其係統抓取其內容之後,Google也希望讓網路管理員對其資料有更多的控制權,以及是否允許其抓取工具將其攝取用於產生人工智慧搜尋。
正如Google所解釋的:
“今天,我們宣布推出 Google-Extended,這是一種新控件,網路發布商可以使用它來管理其網站是否有助於改進 Bard 和 Vertex AI 生成 API,包括為這些產品提供支援的未來幾代模型。 透過使用 Google-Extended 來控制對網站內容的訪問,網站管理員可以選擇是否幫助這些人工智慧模型隨著時間的推移變得更加準確和強大。”
這與 OpenAI 所使用的措辭類似,試圖讓更多網站允許資料訪問,並承諾改進其模型。
事實上,在 OpenAI 文件中,它解釋說:
“檢索到的內容僅用於訓練過程,以教導我們的模型如何響應給定此內容的用戶請求(即,使我們的模型更好地瀏覽),而不是讓我們的模型更好地創建響應。”
顯然,Google和 OpenAI 都希望繼續從開放網路引入盡可能多的資料。 但許多大型出版商和創作者已經具備了阻止人工智慧模型存取內容的能力,以此作為保護版權並阻止生成人工智慧系統複製其作品的一種手段。
隨著圍繞人工智慧監管的討論升溫,大玩家可以看到不祥之兆,這最終將導致更多地執行用於建立生成人工智慧模型的資料集。
當然,對於某些人來說已經太晚了,例如OpenAI 已經根據2021 年之前從網路上提取的資料建立了GPT 模型(最高可達GPT-4)。因此,在一些大型語言模型(LLM) 之前就已經建置好了這些權限已公開。 但展望未來,法學碩士能夠訪問建構生成式人工智慧系統的網站似乎會大幅減少。
這將成為必要,儘管隨著越來越多的人使用生成式人工智慧來搜尋網絡,看看這是否也考慮到搜尋引擎優化會很有趣。 ChatGPT 本週訪問了開放網絡,以提高其響應的準確性,而谷歌正在測試搜尋中的生成式人工智慧,作為其搜尋實驗室實驗的一部分。
最終,這可能意味著網站將希望包含在這些工具的資料集中,以確保它們出現在相關查詢中,這可能會出現重大轉變,允許人工智慧工具在某個階段再次存取內容。
無論哪種方式,Google參與當前有關人工智慧開發和使用的討論都是有意義的,並確保在任何法律生效之前讓網路管理員對其資料有更多的控制權。
谷歌進一步指出,隨著人工智慧應用的擴展,網路出版商“將面臨大規模管理不同用途的日益複雜性”,並且它致力於與網路和人工智慧社群合作,探索最佳的前進道路,這將理想地帶來更好的結果從兩個角度看結果。
您可以在此處詳細了解如何阻止 Google 人工智慧系統抓取您的網站。