在這裡,您將學習如何指示 ChatGPT 從 Excel 檔案中提取最重複的 1 字、2 字和 3 字查詢。 此分析可深入了解所分析的 Reddit 子版塊中最常用的單詞,有助於發現流行主題。 結果將是一個包含三個選項卡的 Excel 工作表,每個選項卡對應一種查詢類型。
建構提示:解釋圖書館和資源
在此提示中,我們將指示 ChatGPT 讀取 Excel 文件,操作其數據,並使用 Pandas 庫將結果保存在另一個 Excel 文件中。 為了進行更全面、更準確的分析,請結合「問題標題」和「問題文字」欄位。 這種合併提供了更豐富的數據集用於分析。
下一步是將大塊文字分解為單字或單字集,這個過程稱為標記化。 NLTK 庫可以有效地處理這個問題。
此外,為了確保標記化僅捕獲有意義的單字並排除常見單字或標點符號,提示將包括使用 NLTK 工具(如 RegexpTokenizer 和 stopwords)的說明。
為了增強過濾過程,我們的提示指示 ChatGPT 創建 50 個補充停用詞的列表,過濾掉可能在 subreddit 討論中流行但不包含在 NLTK 停用詞中的口語短語或常見表達方式。 此外,如果您希望排除特定單字,您可以手動建立一個清單並將其包含在提示中。
清理資料後,使用集合模組中的 Counter 類別來識別最常出現的單字或片語。 將結果儲存在名為「combined-queries.xlsx」的新 Excel 檔案中。 該文件將包含三個不同的工作表:“一個字查詢”、“兩個字查詢”和“三個字查詢”,每個表都顯示查詢及其提及頻率。
建置提示可確保高效的資料擷取、處理和分析,利用每個階段最合適的 Python 程式庫。
測試資料擷取範例提示以及改進建議
下面是一個捕獲上述要點的提示範例。 要使用此提示,只需將其複製並貼上到 ChatGPT 中即可。 需要注意的是,您無需嚴格遵守此提示; 請隨意根據您的具體需求進行修改。
「讓我們從名為 ‘ 的 Excel 檔案中提取最重複的 1 字、2 字和 3 字查詢檔名.xlsx。’ 使用 Pandas 等 Python 函式庫進行資料操作。
首先閱讀 Excel 檔案並合併「問題標題」和「問題文字」欄位。 安裝並使用 NLTK 庫及其必要的資源(如 Punkt)進行標記化,確保標點符號和其他非字母數字字元在此過程中被過濾掉。 對組合文字進行分詞以產生單字、雙字和三字查詢。
在分析頻率之前,使用 NLTK 庫過濾掉常見的停用詞。 除了 NLTK 停用詞之外,還包含 50 個常見助動詞、縮寫和口語短語的額外停用詞列表。 此附加清單應重點關注「我願意」、「我應該」、「我不」等短語,並與 NLTK 停用詞一起使用。
清理資料後,使用集合模組中的 Counter 類別來確定最頻繁的單字、雙字和三字查詢。
將結果儲存在名為「combined-queries.xlsx」的新 Excel 檔案中的三個單獨的工作表中。 這些工作表應命名為「單字查詢」、「雙字查詢」和「三字查詢」。 每張表都應列出查詢以及它們在 Reddit 上被提及的次數。
顯示 3 個表中前 5 個查詢的清單及其每組的計數。”
優化關鍵字數量以加快輸出速度
從許多問題中提取資料時,請考慮請求更少的關鍵字作為輸出,以加快流程。 例如,如果您已從 400 個問題中提取數據,您可能會要求 ChatGPT 僅顯示前 3 個關鍵字。 如果您想查看更多關鍵字,只需下載該檔案即可。 這種方法將減少 ChatGPT 的處理時間。
精簡直接輸出的提示
如果您繼續遇到中斷,但對了解工作流程不感興趣,請考慮在提示末尾添加以下行:“無需任何解釋; 只需提供輸出。」 此指令指示 ChatGPT 專注於提供所需的輸出。
透過 ChatGPT 獲得數據驅動的 SEO 見解
現在,您已經準備了兩個資料集; 第一個是問題清單及其 URL、評論數量和按讚數。 同時,第二個是單字、雙字和三字查詢的清單。
若要使用 ChatGPT 分析或視覺化此數據,請使用 Noteable 外掛程式或從 Noteable 應用程式下載 Excel 檔案並將其上傳到 ChatGPT 數據分析工具。 對於本指南,請繼續使用 Noteable 外掛程式以保持相同聊天中的一致性。