Reddit 上有人發布了有關「抓取預算」問題的問題,並詢問大量 301 重定向到 410 錯誤回應是否導致 Googlebot 用完其抓取預算。 谷歌的約翰·穆勒(John Mueller)解釋了為什麼 Reddit 可能會遇到低迷的抓取模式,並澄清了有關抓取預算的一般觀點。
追蹤預算
谷歌有一個抓取預算是一個普遍接受的想法,SEO 發明這個想法是為了解釋為什麼有些網站沒有得到足夠的抓取。 這個想法是為每個站點分配一定數量的爬網,這是對站點爬網數量的限制。
了解追蹤預算想法的背景很重要,因為它有助於理解它的實際意義。 谷歌長期以來一直堅稱谷歌上不存在抓取預算之類的東西,儘管谷歌抓取網站的方式可能會給人留下抓取限制的印象。
一位名叫 Matt Cutts 的 Google 資深工程師(當時)在 2010 年的一次訪談中提到了有關抓取預算的事實。
馬特回答了有關 Google 抓取預算的問題,首先解釋說,SEO 所理解的抓取預算並不存在:
「首先,確實沒有索引限制。很多人認為一個網域只會索引一定數量的頁面,但事實並非如此。
我們的爬行也沒有硬性限制。”
2017 年,Google 發布了抓取預算解釋器,其中匯集了許多與抓取相關的事實,類似於 SEO 社群所謂的抓取預算。 這個新的解釋比模糊的籠統短語「抓取預算」(搜尋引擎雜誌在此總結的 Google 抓取預算檔案)更準確。
關於追蹤預算的要點的簡短清單是:
- 抓取率是指 Google 根據伺服器提供所請求網址的能力可以抓取的網址數量。
- 例如,共享伺服器可以託管數以萬計的網站,從而產生數十萬甚至數百萬個 URL。 因此,Google必須根據滿足頁面請求的能力來抓取伺服器。
- 本質上與其他頁面重複的頁面(例如分面導航)和其他低價值頁面可能會浪費伺服器資源,從而限制伺服器可以供 Googlebot 抓取的頁面數量。
- 輕量級的頁面更容易被抓取。
- 軟 404 頁面可能會導致 Google 專注於這些低價值頁面,而不是重要的頁面。
- 內部連結和輸入模式可以幫助影響抓取哪些頁面。
Reddit 關於抓取速度的問題
Reddit 人員想知道他們創建的低價值頁面是否會影響 Google 的抓取預算。 簡而言之,對不再存在的頁面的不安全 URL 的請求會重新導向到遺失網頁的安全版本,該版本會傳回 410 錯誤回應(意味著該頁面永久消失)。
這是一個合理的問題。
他們問的是:
「我試著讓 Googlebot 忘記抓取一些非常舊的非 HTTPS 網址,這些網址在 6 年後仍在被抓取。我在這些舊網址上的 HTTPS 旁邊放置了 410 回應。
因此,Googlebot 會尋找 301 重定向(HTTP 到 HTTPS),然後尋找 410。
http://example.com/old-url.php?id=xxxx -301-> https://example.com/old-url.php?id=xxxx(410 回應)
兩個問題。 G****對這個301+410滿意嗎?
我遇到了「抓取預算」問題,不知道這兩個答案是否會耗盡 Googlebot 的資源
410有效嗎? 我的意思是,我應該直接返回 410,而不先返回 301 嗎?”
谷歌的約翰·穆勒回應:
G*?
301 很好,301/410 混合也很好。
抓取預算其實只是大型網站的問題(https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget)。 如果您發現了問題,而您的網站並不是很大,那麼 Google 可能認為抓取更多內容並沒有太大價值。 這不是技術問題。”
爬行不夠的原因
穆勒回應稱,Google「可能」沒有看到抓取更多網頁的價值。 這意味著網頁可能會使用審查來確定為什麼 Google 可能會確定這些網頁不值得抓取。
一些流行的搜尋引擎優化策略往往會創建缺乏原創性的低價值網頁。 例如,一種流行的SEO 實踐是查看排名靠前的網頁,以了解這些頁面上的哪些因素可以解釋這些頁面排名的原因,然後利用該資訊透過複製對其搜尋結果有效的內容來改進您自己的頁面。
這聽起來合乎邏輯,但它並沒有創造出有價值的東西。 如果您將其視為一和零的二元選項,其中零是搜尋結果中已經存在的內容,而一代表原始且不同的內容,那麼模仿搜尋結果搜尋中已有內容的流行SEO 策略注定會創建另一個零,一個只提供 SERP 中已有內容的網站。
顯然,存在可能影響抓取速度的技術問題,例如伺服器健康狀況和其他因素。
但就抓取預算而言,這是谷歌長期以來一直認為是針對大型網站而不是中小型網站的考慮。
閱讀 Reddit 討論:
G**** 對同一 URL 的 301+410 回應感到滿意嗎?
精選圖片由 Shutterstock/ViDI Studio 提供