從網頁上抓取資料是一項相對進階的任務,直到最近還需要一定程度的技術技能。 對許多人來說,包括我自己在內,深入研究資料探勘程式碼或腳本的想法似乎難以承受。
資料抓取可以驅動許多 SEO 任務,包括審核、競爭對手分析以及檢查網站和資料結構。
Google 試算表提供了簡單的解決方案來幫助您。
其中一個解決方案是 IMPORTXML 函數,它允許使用者僅使用幾個參數即可從網頁中刪除資料。 它使資料探勘可供更廣泛的受眾使用,特別是那些不熟悉程式語言的人。
雖然這項功能令人印象深刻,但真正的突破來自於生成式人工智慧的採用和整合。
在本指南中,我們將向您展示如何使用 Google 試算表和人工智慧(尤其是 ChatGPT)進行網頁抓取,而無需高階編碼技能。
工具:人工智慧與聊天機器人
現在我們都熟悉人工智慧、ChatGPT 和類似的聊天機器人。
事實上,我們中的許多人都使用 ChatGPT 等解決方案來編寫自己的程式碼、腳本和程序,而沒有或非常有限的程式設計知識。
它就像以提示的形式提供詳細說明並與聊天機器人一起創建直到最近我們還認為遠遠超出我們能力的工具一樣簡單。
但最重要的是,這些工具正在深刻改變我們日常生活的方式。
例如,如果我們向 ChatGPT 詢問以下問題:“IMPORTXML 函數是什麼?如何在 Google Sheets 中使用它來清除 HTML 網頁的標題?請提供在 Google Sheets 中執行此操作所需的程式碼”,則答案極其準確。 幾秒鐘之內,我們的公式就可以在 Google 試算表中使用了。
但說實話,這是一個非常基本且簡單的任務,如果沒有 ChatGPT,我們也可以輕鬆完成。
任務
那麼,如果我們想要提取與頁面標題或描述相比稍微不太標準的數據,那麼這是如何運作的呢?
例如,如果我們想從搜尋引擎期刊的 PPC 首頁中提取以下數據,這是如何運作的?
在 https://www.searchenginejournal.com/category/paid-media/pay-per-click/ 列出的欄位中列出所有特色文章、作者、連結 URL 和文章描述。
我們可以直接用ChatGPT來做嗎?
使用 ChatGPT 運行
在建立請求時,需要進行幾次嘗試才能為聊天機器人提供足夠詳細的說明,以充分理解任務的目的並獲得良好的結果。
在許多情況下,儘管人工智慧的準確性很高,但它似乎面臨著快速返回結果的壓力。
但讓我解釋一下。
任務是掃描頁面並列出所有精選文章、作者、連結 URL 以及頁面上出現的 30 篇文章中每篇的描述。 然後將資料編譯成表格,最後匯出到CSV檔。
簡單吧?
起初,ChatGPT 僅傳回七篇文章的樣本及其標題和 URL; 經過重新設計的提示後,它成功列出並導出了所有 30 篇文章及其連結。
現在,那很好。 因此,要完成任務,您所要做的就是添加作者和文章描述。
但這就是機器人遇到的問題,即使我們提供了它需要尋找和複製的頁面元素的範例,也無法提供每個項目的準確描述。
ChatGPT 一直無視說明並一遍又一遍地提供自己的項目描述。
當我們嘗試不同的方法並下載並上傳頁面 HTML 的副本時,ChatGPT 甚至失敗了。
這一次,他能夠提供七項的準確數據,但他卻過不了這一關。 報告的問題:
「…頁面的結構和內容對在單一會話中完整提取資料提出了重大挑戰。
頁面相當大且複雜,以目前的互動格式提取全部30篇文章是不可行的。”
ChatGPT + Google 表格
那麼,回到 IMPORTXML 和 Google Sheets。
這一次,讓 ChatGPT 提供每個欄位的公式變得輕而易舉。
以下是聊天機器人建議的一些公式,您可以輕鬆地在 Google 試算表中嘗試提取這些公式:
標題
=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/h2/a")
作者姓名
=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/p[1]/a")
網址連結
=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/h2/a/@href")
描述
=IMPORTXML("https://www.searchenginejournal.com/category/paid-media/pay-per-click/", "//*[@id='archives-wrapper']/article/div/div[2]/p[2]")
很快,我們就可以將資料提取到電子表格中。
此外,使用簡單建構的巢狀公式,我們可以同時從多個頁面快速擷取資料。
在下面的範例中,我能夠為 PPC 部分的前 10 頁提取與每篇文章相關的相同資料(標題、作者、URL 連結和描述)。
結果不到一分鐘就刮掉了總共 300 個項目!
兩者比較
那麼 ChatGPT 和 ChatGPT + Google Sheets IMPORTXML 相比如何呢?
根據我的經驗,我找不到一種簡單快速的方法來使用 ChatGPT 來刪除我要找的資料; 請注意,這並不意味著這是不可能的,並且可能有多種方法可以做到這一點,但我還沒有找到。
對我有用的是不同工具的組合,這非常適合我的預期目的。
ChatGPT 在編寫我需要在 Google Sheets 中使用的 IMPORTXML 公式方面非常有幫助,這些公式完成了其餘的工作。
ChatGPT + Google Sheets 選項的另一個好處是,您只需使用 ChatGPT 的免費版本 3.5 並獲取該工具來建立 IMPORTXML 公式,而無需使用版本 4 掃描頁面並提取資料。
鑰匙可帶走
這凸顯了人工智慧如何改變我們的思維和工作方式的一個關鍵面向。
這項工作的最佳工具不僅僅是使用人工智慧、谷歌表單或任何特定的軟體,而是工具和技能的組合。
正是透過這種整合方法,我們開發了高效且有效的工作流程,從而提高了我們的整體生產力。
更多資源:
特色圖片:視覺生成/Shutterstock