谷歌修復了其跟踪器文檔中的一個拼寫錯誤,該錯誤無意中錯誤地識別了其跟踪器之一。
這通常是一個小問題,但對於依賴文檔設置防火牆規則的 SEO 和發布商來說,這是一個主要問題。
如果您沒有寫下正確的數據,網站可能會無意中阻止合法的 Google 跟踪器。
谷歌檢查工具
該錯誤位於 Google 檢查工具文檔部分。
這是一個重要的跟踪器,響應兩個請求而發送到網站。
1. Search Console 中的網址檢查功能
當用戶想要在搜索控制台中檢查某個網頁是否被索引或請求索引時,Google系統會用Google檢查工具的爬蟲進行響應。
URL 檢查工具提供以下功能:
- 檢查 Google 索引中網址的狀態
- 檢查實時 URL
- 請求對 URL 建立索引
- 查看頁面的渲染版本
- 查看加載的資源、JavaScript 輸出和其他信息
- 修復缺頁問題
- 了解您的規範頁面
2. 測試豐富的結果
這是一項測試,旨在檢查結構化數據的有效性,並查看其是否滿足增強型搜索結果(也稱為豐富結果)的要求。
使用此測試將觸發特定的爬蟲來獲取網頁並分析結構化數據。
為什麼爬蟲用戶代理拼寫錯誤會出現問題
對於付費牆後面但將特定機器人列入白名單的網站(例如 Google-InspectionTool 用戶代理)來說,這可能會成為一個問題。
如果 CMS 需要使用 robots.txt 或 robots 元指令阻止抓取工具以防止 Google 發現它不應該查看的頁面,則錯誤識別用戶代理也可能會出現問題。
某些論壇內容管理系統會刪除指向網站部分內容(例如用戶註冊頁面、用戶配置文件和搜索功能)的鏈接,以防止機器人對這些頁面建立索引。
很難發現用戶代理的拼寫錯誤
該問題涉及用戶代理描述中難以檢測的拼寫錯誤。
看看你能看出區別嗎?
答案如下:
原始版本:
Mozilla/5.0(兼容;Google-InspectionTool/1.0)
新版本:
Mozilla/5.0(兼容;Google-InspectionTool/1.0;)
如果您或客戶將 Google 抓取工具列入白名單或阻止抓取工具訪問某些網頁,請務必更新您的 robots.txt 文件、元機器人指南或相關 CMS 代碼。
將原始版本(在 Internet Archive Wayback Machine 上)與此處的更新版本進行比較。
這是一個小細節,但可以產生很大的影響。
精選圖片由 Shutterstock/Nicoleta Ionescu 提供