谷歌發布了「搜尋如何運作」教育影片系列的新一期,解釋了其搜尋引擎如何透過爬行發現和存取網頁。
Google 工程師詳細介紹追蹤流程
在由 Google 分析師 Gary Illyes 主持的七分鐘節目中,該公司詳細介紹了 Googlebot(Google 用於抓取網路的軟體)的工作原理。
Illyes 描述了 Googlebot 在網路上數十億網頁上尋找新內容和更新內容並使 Google 可以搜尋到的步驟。
伊利斯解釋:
「Google發現的大多數新網址都來自谷歌之前抓取的其他已知頁面。
您可以想像一個具有不同類別頁面的新聞網站,然後連結到各個新聞文章。
Google 可以透過不時重新訪問類別頁面並提取指向這些文章的 URL 來發現大多數已發表的文章。”
Googlebot 如何抓取網絡
Googlebot 首先追蹤已知網頁中的連結來發現新的 URL,這個過程稱為 URL 發現。
根據伺服器回應時間和內容質量,以獨特的自訂速度對每個網站進行爬網,避免網站過載。
Googlebot 使用目前版本的 Chrome 瀏覽器呈現頁面,以執行任何 JavaScript 並正確顯示腳本載入的動態內容。 它也只抓取公開可用的頁面,而不抓取那些需要登入的頁面。
有關的: Google 回答有關抓取預算的問題
提高可發現性和可追溯性
Illyes 強調了網站地圖(列出網站 URL 的 XML 檔案)在幫助 Google 尋找和抓取新內容方面的有用性。
他建議開發人員讓他們的內容管理系統自動產生網站地圖。
優化技術 SEO 因素(例如網站架構、速度和抓取指令)也可以提高可抓取性。
以下是一些讓您的網站更易於抓取的額外策略:
- 避免耗盡您的抓取預算 – 頻繁更新的網站可能會超出 Googlebot 的抓取預算,從而阻止新內容被發現。 仔細的 CMS 設定和 rel=“next”/rel=“prev”標籤會有所幫助。
- 實施良好的內部鏈接 – 連結到類別和中心頁面上的新內容可讓 Googlebot 發現新的 URL。 有效的內部連結結構使其易於抓取。
- 確保頁面載入速度快 – 對 Googlebot 抓取反應緩慢的網站的抓取速度可能會加快。 優化頁面效能可以加快抓取速度。
- 消除軟 404 錯誤 – 修復不正確的 CMS 設定導致的軟 404,確保 URL 指向有效頁面,從而提高抓取成功率。
- 考慮 robots.txt 調整 – 過緊的 robots.txt 可能會阻止有用的頁面。 SEO 審核可以發現可以安全刪除的限制。
教育影片系列中的最新內容
最新影片是在谷歌上週推出「搜尋如何工作」教育系列以闡明搜尋和索引過程之後發布的。
最近發布的有關爬行的一集深入了解了搜尋引擎最基本的操作之一。
在接下來的幾個月中,Google將製作更多劇集,探討索引、品質評估和搜尋優化等主題。
該系列可在 Google 搜尋中心 YouTube 頻道上觀看。
常問問題
Google 所描述的追蹤流程是怎麼樣的?
正如最近一集的「搜尋工作原理」系列中所描述的,Google 的抓取過程包括以下關鍵步驟:
- Googlebot 透過追蹤先前抓取過的已知頁面的連結來發現新的 URL。
- 它策略性地以自訂速度抓取網站,以避免伺服器超載,同時考慮到回應時間和內容品質。
- 該爬蟲還使用最新版本的 Chrome 呈現頁面,以正確顯示 JavaScript 加載的內容並僅訪問公開可用的頁面。
- 優化技術 SEO 因素並使用網站地圖可以讓 Google 更輕鬆地抓取新內容。
行銷人員如何確保他們的內容被 Googlebot 有效發現和抓取?
行銷人員可以採用以下策略來提升 Googlebot 內容的可發現性和可抓取性:
- 在內容管理系統中實現網站地圖的自動產生。
- 重點優化 SEO 的技術要素,例如網站架構和載入速度,並相應地使用爬行指令。
- 透過有效設定 CMS 並使用分頁標籤,確保頻繁的內容更新不會耗盡您的抓取預算。
- 建立有效的內部連結結構,有助於發現新的 URL。
- 檢查並優化您網站的 robots.txt 文件,確保它不會對 Googlebot 造成太大限制。