谷歌的 Gemini 公開後僅二十四小時,有人就注意到這些聊天記錄公開出現在Google搜尋結果中。 谷歌很快就對疑似洩密事件做出了回應。 發生這種情況的原因相當令人驚訝,而且並不像看起來那麼險惡。
@shemiadhikarath 他發推文:
“在 @Google Gemini 推出後的幾個小時內,Bing 等搜尋引擎就已經對公共 Gemini 對話建立了索引。”
他們在 gemini.google.com/share/ 上發布了搜尋的螢幕截圖
但如果您查看螢幕截圖,您會看到一條訊息:“我們想在此處向您顯示描述,但網站不允許我們這樣做。”
2 月 13 日星期二凌晨,Google Gemini 聊天內容開始出現在Google搜尋結果中,Google只顯示了三個搜尋結果。 到下午,搜尋結果中顯示的洩漏的 Gemini 聊天記錄數量已減少到單一搜尋結果。
Gemini 聊天頁面是如何建立的?
Gemini 提供了一種建立可公開查看的私人聊天版本的連結的方法。
Google 不會自動透過私人聊天建立網頁。 聊天頁面是由使用者使用每個聊天底部的連結建立的。
如何建立共享聊天頁面的螢幕截圖
為什麼 Gemini 聊天頁面被索引?
聊天頁面被抓取和索引的明顯原因是 Google 忘記將 robots.txt 放入 Gemini 子網域 (gemini.google.com) 的根目錄中。
robots.txt 檔案是用來控制網站上的爬蟲活動的文件。 發布者可以使用 Robots.txt 協定中的標準化命令來阻止特定的爬網程式。
我在2月13日凌晨4點19分查看了robots.txt文件,發現有一個:
然後我檢查了互聯網檔案館,看看 robots.txt 檔案已經存在了多久,發現它至少從 2 月 8 日(Gemini 應用程式發布的那一天)就已經存在了。
網路檔案館的螢幕截圖
這意味著聊天頁面被抓取的明顯原因並不是正確的原因,而只是最明顯的原因。
儘管 Google Gemini 子網域有一個 robots.txt 阻止了 Bing 和 Google 網路爬蟲,但它們最終是如何爬行並索引這些頁面的呢?
發現雙向私人聊天頁面並編入索引
- 某處可能有公共連結。
- 它們是透過 cookie 連結的瀏覽歷史記錄發現的,可能性較小,但也許有可能。
更有可能存在公共連結。
我問比爾·哈澤(@bhartzer)關於它並發現了索引頁面之一的公共連結:
所以現在我們知道公共連結很可能會讓這些 Gemini Chat 頁面被抓取並建立索引。
Bill Hartzer 提出了這樣的觀察:
「雖然 robots.txt 檔案中的 Gemini URL 被屏蔽,但部落格評論中存在指向 Gemini URL 的鏈接,因此 Gemini URL 已被索引。
這只是表明Google仍然會在robots.txt檔案中索引無法抓取的URL。
如果 Google 確實想要確保 Gemini URL 不被編入索引,它可以抓取 robots.txt 檔案並為頁面新增 noindex 元標記。 也許谷歌應該聽取自己的建議?”
為什麼聊天頁面開始從搜尋結果中消失?
但如果有公共鏈接,為什麼谷歌開始刪除聊天頁面? Google 是否為搜尋爬蟲建立了內部規則,以從搜尋索引中排除 /share/ 資料夾中的網頁,即使它們是公開連結的?
有關 Bing 和 Google 如何搜尋索引內容的信息
現在,對於所有對 Google 和 Bing 如何索引內容感興趣的搜尋極客來說,這是非常酷的部分。
微軟的必應搜尋索引對 Gemini 內容的回應與Google搜尋不同。 2 月 13 日凌晨,Google仍顯示三個搜尋結果,而必應僅顯示該子網域的一個結果。 索引的內容和索引的數量看似隨機。
Gemini 聊天頁面為何被洩漏?
以下是已知事實:
- 自 2 月 8 日起,Google 就開始使用 robots.txt。
- Google 和 Bing 都對 gemini.google.com 子網域中的頁面建立了索引。
- 谷歌和必應都可能發現了聊天連結並隨後將其編入索引。
- 無論 robots.txt 是什麼,搜尋引擎都會對內容建立索引,然後開始轉儲它們。
這讓我們回到了為什麼這些頁面開始從 Google 和 Bing 搜尋結果中消失的問題。 我猜 Google Gemini 聊天頁面是低品質的網頁,不值得在長時間的搜尋中顯示(site:gemini.google.com/share/)。 確實沒有任何有用的理由在搜尋結果中顯示這些頁面。
被Robots.txt阻止的內容仍然可以被發現、爬行並最終出現在搜尋索引中,如果這些頁面有用,它們也可以被排名,除非它們沒有用。 我想可能是這樣的。