Ahrefs 網站審核也作為免費 Ahrefs 網站管理員工具的一部分提供,可讓您搜尋原始 HTML 程式碼或 JS 渲染的程式碼 全部 已爬網的網站頁面。
當您需要驗證分析標籤、識別呼叫某些腳本或樣式表的頁面、偵測頁面程式碼中不需要的注入或研究競爭對手的技術時,此功能特別有用。
重要的是要了解,在 JavaScript 支援的網站時代,頁面程式碼可以以兩種形式存在:
原始(來源):頁面上任何 JavaScript 執行之前的 HTML 程式碼。 這是您使用瀏覽器中的「檢視頁面原始碼」功能所看到的內容。
渲染的:由 JavaScript 更改/產生後的最終 HTML 程式碼。 它在瀏覽器的“檢查”模式下可見。
原始版本和渲染版本可能有很大不同,因此確保您搜尋頁面程式碼的正確版本非常重要。
如何搜尋頁面的渲染程式碼
如果您需要搜尋網站上所有頁面的 JS 渲染的 HTML 程式碼,請在網站審核或 Ahrefs 網站管理員工具中執行爬網。 確保在爬網設定中啟動“執行 JavaScript”選項。
抓取完成後,轉到 頁面瀏覽器 並訪問 進階過濾器。 從下拉式選單中選擇“頁面來源”,然後選擇“包含”。 然後,輸入您要搜尋的特定代碼段。
上面的範例會尋找我們部落格上包含嵌入表格的所有頁面。
如何搜尋頁面的原始 HTML
搜尋原始 HTML(也稱為來源 HTML)需要一些額外的操作:
1.在抓取設定中停用JavaScript渲染
2. 確保所有頁面都能被爬蟲發現。
這對於透過 JavaScript 產生頁面內容(包括內部連結)的網站至關重要,因為 AhrefsSiteAudit 機器人可能無法透過原始 HTML 程式碼自動發現所有頁面。
這就是為什麼您需要向網站審核工具提供我們稱為「種子」的輸入 URL 清單。
最簡單的方法是確保在「URL 來源」中使用網站地圖。 如果這不可行,請使用自訂 URL 清單。
抓取完成後,使用進階篩選器搜尋所有抓取頁面的原始程式碼。