Google 更新了其 Googlebot 和追蹤器文檔,為 Google 產品用戶啟動的機器人添加了一系列 IP。 頻道名稱已更改,這對於將 Google 控制的 IP 位址列入白名單的發布商來說非常重要。 對於想要阻止使用 Google Cloud 的抓取工具以及與 Google 本身不直接關聯的其他抓取工具的發布商來說,這項變更將非常有用。
新的 IP 位址列表
谷歌表示,該清單包含已使用很長時間的IP範圍,因此它們不是新的IP位址範圍。
IP 位址範圍有兩種類型:
- 使用者發起但由 Google 控制的 IP 範圍,解析為 Google.com 主機名稱。
這些工具類似 Google Site Verifier,大概還有 Rich Results Tester。 - 由使用者啟動但不受 Google 控制並解析為主機名稱 gae.googleusercontent.com 的 IP 範圍。
這些是駐留在 Google Cloud 中的應用程式或從 Google Sheets 中呼叫的應用程式腳本。
現在每個類別對應的清單都不同了。
以前,與 Google IP 位址對應的清單是這樣的:special-crawlers.json(解析為 gae.googleusercontent.com)
「特殊瀏覽器」清單現在對應於不受 Google 控制的追蹤器。
「user-triggered-fetchers.json 物件中的IP 解析為主機名稱gae.googleusercontent.com。例如,如果在Google Cloud (GCP) 上執行的網站具有需要在以下位置取得外部RSS 提要的功能,則會使用這些IP:本網站使用者的請求。
與Google控制的追蹤器相對應的新列表是:
使用者觸發的 fetchers-google.json
「最終用戶觸發檢索的產品工具和功能。例如,Google Site Verifier 根據用戶的請求進行操作。由於檢索是由用戶請求的,因此這些檢索器會忽略機器人規則 .txt。
Google 控制的提取器源自 user-triggered-fetchers-google.json 物件中的 IP,並解析為 google.com 主機名稱。
可以在此處找到 Google 無法控制的 Google Cloud IP 和應用程式追蹤器清單:
https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers.json
由使用者啟動並由 Google 控制的 Google IP 清單如下:
https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers-google.json
新內容部分
有一個新的內容部分解釋了新清單的全部內容。
「Google 控制的Fetchers 源自user-triggered-fetchers-google.json 物件中的IP,並解析為主機名稱google.com。user-triggered-fetchers.json 中的IP 解析為主機名gae.googleusercontent.com 這些IP 是例如,如果在 Google Cloud (GCP) 上運行的網站具有需要從該網站的使用者獲取外部 RSS 來源的功能。或google-proxy-***-***-***-***。
Google變更日誌
谷歌的變更日誌解釋了這樣的變化:
「匯出其他範圍的 Google fetcher IP 位址
內容:為 Google 產品控制的檢索器添加了額外的 IP 位址列表,而不是使用者控制的 Apps 腳本。 新清單 user-triggered-fetchers-google.json 包含長期使用的 IP 範圍。原因:從技術上講,它使得導出範圍成為可能。
閱讀更新的文檔:
檢查 Googlebot 和其他 Google 抓取工具
閱讀舊文檔:
Archive.org – Googlebot 和其他 Google 抓取工具的驗證
精選圖片由 Shutterstock/JHVEPhoto 提供