在 Google 搜尋中心影片中,Google 的 Gary Illyes 解釋了網頁索引的一部分,其中涉及選擇規範,解釋規範對 Google 的意義,網頁訊號的縮圖解釋,他提到了頁面的核心部分並解釋了它的含義處理重複項需要一種新的思考方式。
什麼是規範網頁?
有多種方法可以從發布商和搜尋引擎優化的角度考慮規範的含義,以及從 Google 的角度考慮規範的含義。
發布者確定他們認為的「原始」網頁,而規範的 SEO 概念是選擇網頁的「最強」版本進行排名。
Google 的規範化與出版商和 SEO 所認為的完全不同,因此很高興聽到像 Gary Illyes 這樣的 Google 員工這麼說。
Google 的官方規範化文件使用「重複資料刪除」一詞來指稱選擇規範的過程,並列出了網站可能存在重複頁面的五個典型原因。
重複頁面的五個原因
- 「區域變體:例如,美國和英國的內容可以從不同的 URL 訪問,但本質上是相同語言的相同內容。
- 裝置變體:例如,同時具有行動版本和桌面版本的頁面
- 協定變體:例如,網站的 HTTP 和 HTTPS 版本
- 網站功能:例如分類頁面的排序和過濾功能的結果
- 意外變體:例如,網站的演示版意外地被爬蟲訪問了”
可以透過三種不同的方式來考慮規範,並且重複頁面至少有五個原因。
加里描述了另一種思考設定的方式。
訊號用於選擇規範
Ilyes 分享了規範的另一個定義,這次是從索引的角度來看,並討論了用於選擇規範的訊號。
加里解釋:
「Google確定該頁面是否與另一個已知頁面重複,以及哪個版本應保留在索引中,即規範版本。
但在這種情況下,規範版本是一組重複頁面中的頁面,根據我們收集的有關每個版本的信號,最能代表該組的頁面。”
加里停下來解釋重複分組,然後稍後返回信號。
它繼續說:
「大多數情況下,搜尋結果只會出現規範頁面。但是我們如何知道哪個頁面是規範頁面呢?
因此,一旦 Google 獲得了您的頁面內容,或者更具體地說,獲得了頁面的主要內容或核心內容,它就會將其與具有相似內容(如果有)的一個或多個頁面分組。 這是重複分組。”
我只想在此指出,Gary 將主要內容稱為“頁面的中心部分”,這很有趣,因為 Google 的 Martin Splitt 引入了一個稱為“中心部分註釋”的概念。 他並沒有真正解釋中心表註釋是什麼,但是 Gary 分享的這部分內容有所幫助。
接下來是影片的一部分,加里談論這些標誌的實際含義。
Illyes 解釋了什麼是「訊號」:
「然後,它會比較已經為每個頁面計算的一些訊號,以選擇規範版本。
訊號是搜尋引擎收集的有關頁面和網站的信息,用於進一步處理。
有些訊號非常簡單,例如網站所有者的 HTML 註釋(例如 rel=”canonical”),而其他訊號(例如互聯網上單個頁面的重要性)則不太簡單。”
重複的簇有一個規範的
加里然後解釋說,選擇一個頁面來代表搜尋結果中每組重複頁面的規範。 每組重複項都有一個規範。
他繼續:
「每個重複的集群都將有一個被選為規範的內容版本。
此版本將呈現所有其他版本搜尋結果中的內容。
叢集的其他版本成為可以在不同上下文中提供服務的備用版本,例如用戶在叢集中搜尋非常特定的頁面。”
網頁的替代版本
最後一部分非常有趣並且需要記住,因為能夠對關鍵字的多個變體進行排名非常有用,尤其是對於電子商務網站。
有時,內容管理系統 (CMS) 會建立重複的網頁來解釋產品的變化,例如產品的尺寸或顏色,這可能會影響描述。 當變體頁面與搜尋查詢最匹配時,Google 可能會選擇這些變體在搜尋結果中排名。
考慮這一點很重要,因為由於擔心(不存在的)關鍵字蠶食問題,可能會很容易重定向 noindex 變體的網頁,以將它們排除在搜尋索引之外。 在作為頁面變體的頁面添加 noindex 可能會適得其反,因為在某些情況下,這些變體頁面最適合針對包含與規範頁面不同顏色、大小或版本號的更細緻的搜尋查詢進行排名。
關於 Canonicals(以及更多)需要記住的最佳要點
Gary 對規範的討論中有很多訊息,包括主要內容的一些副主題。
以下是七個需要考慮的要點:
- 主要內容稱為中央表
- 谷歌為它發現的每個頁面計算一個「訊號位」。
- 信標是在網頁被發現後用於「後處理」的資料。
- 有些訊號受編輯器控制,例如提示(大概還有指令)。 Illyes 提到的線索是 rel=canonical 連結屬性。
- 其他訊號超出了發布者的控制範圍,例如頁面在網路環境中的重要性。
- 一些重複的頁面可能作為替代版本
- 網頁的替代版本仍然可以排名,並且對於 Google(和發布商)排名很有用。
觀看搜尋中心有關索引的劇集:
Google 搜尋如何索引頁面
精選圖片來自 Google 影片/作者更改