谷歌透露了兩個新爬蟲的詳細信息,這些爬蟲經過優化,可以抓取圖像和視頻內容以用於“研究和開發”目的。 儘管文件沒有明確說明,但假設發布商決定阻止新的追蹤器不會對排名產生影響。
應該注意的是,這些追蹤器收集的數據並不明確用於人工智慧訓練數據,而這正是 Google 擴展追蹤器的用途。
谷歌其他追蹤器
這兩款新追蹤器是Google 2023 年4 月推出的GoogleOther 追蹤器的版本。 。 關於新的 GoogleOther 變體的用途。
最初的GoogleOther追蹤器的目的官方描述為:
“GoogleOther 是通用爬蟲,各種產品團隊都可以使用它從網站獲取可公開訪問的內容。例如,它可以用於內部研究和開發的現場爬網。”
Google Other 的兩個變體
有兩個新的 GoogleOther 追蹤器:
- 谷歌其他圖像
- Google其他影片
新變體用於追蹤二進位數據,即非文字數據。 HTML 資料通常稱為文字檔案、ASCII 檔案或 Unicode 檔案。 如果可以在文字檔案中查看,則它是文字/ASCII/Unicode 檔案。 二進位檔案是無法在文字顯示應用程式中開啟的文件,例如圖像、音訊和視訊等文件。
新的 GoogleOther 變體適用於圖像和影片內容。 Google 列出了這兩個新抓取工具的使用者代理令牌,可在 robots.txt 檔案中使用這些令牌來阻止新抓取工具。
1.Google其他圖像
使用者代理令牌:
- 谷歌其他圖像
- 谷歌其他
完整的用戶代理字串:
GoogleOther-Image/1.0
2.Google其他視頻
使用者代理令牌:
- Google其他影片
- 谷歌其他
完整的用戶代理字串:
Google其他影片/1.0
最近更新了 Google其他用戶代理字串
Google 也更新了常規 GoogleOther 抓取工具的 GoogleOther 使用者代理字串。 出於封鎖目的,您可以繼續使用與先前相同的使用者代理令牌 (GoogleOther)。 新的用戶代理字串只是發送到伺服器的數據,用於識別追蹤器的完整描述,特別是所使用的技術。 在本例中,使用的技術是 Chrome,型號會定期更新以反映所使用的版本(WXYZ 是下例中 Chrome 版本號的佔位符)。
GoogleOther 用戶代理字串的完整清單:
- Mozilla/5.0(Linux;Android 6.0.1;Nexus 5X Build/MMB29P)AppleWebKit/537.36(KHTML,如 Gecko)Chrome/WXYZ Mobile Safari/537.36(相容;Google其他)
- Mozilla/5.0 AppleWebKit/537.36(KHTML,如 Gecko;支援;Google其他) Chrome/WXYZ Safari/537.36
谷歌另一個機器人家族
這些新的機器人可能會不時出現在您的伺服器日誌中,這些資訊將幫助您將它們識別為真正的 Google 抓取工具,並協助選擇將圖像和影片用於研究和開發目的的發布者。
閱讀更新後的 Google 追蹤器文檔
谷歌其他圖像
Google其他影片
精選圖片由 Shutterstock/ColorMaker 提供