美國假期期間,一些貼文被分享,涉嫌與Google排名相關的資料外洩。 有關洩密事件的早期貼文主要關注「證實」蘭德·菲甚金長期以來的信念,但並沒有太多關注資訊的背景及其實際含義。
上下文很重要:文檔 AI 倉庫
洩漏的文檔與一個名為 Document AI Warehouse 的公共谷歌雲端平台有關係,該平台用於分析、組織、搜尋和儲存資料。 該公共文檔的標題為文檔 AI 倉庫概述。 Facebook 上的一篇貼文表示,「洩漏」的資料是公開可見的 Document AI Warehouse 文件的「內部版本」。 這是該數據的上下文。
截圖:文檔AI倉庫
@DavidGQuaid 發推文:
“我認為很明顯,顧名思義,它是一個用於構建文檔存儲的外部 API”
這似乎給「洩漏」資料代表Google搜尋內部資訊的觀點潑了一盆冷水。
據我們目前所知,「洩漏的資料」與公共 Document AI Warehouse 頁面上的資料相似。
內部搜尋資料外洩?
SparkToro 上的原始貼文並沒有說資料來自 Google 搜尋。 他說,將數據發送給蘭德·菲甚金的人就是提出這一說法的人。
我欽佩蘭德·菲甚金的一件事是,他的寫作一絲不苟、精確,尤其是在涉及警告時。 蘭德特別指出,提供數據的人聲稱這些數據來自谷歌搜尋。 沒有證據,只是一種說法。
他寫:
「我收到了一封電子郵件,某人聲稱可以訪問 Google 搜尋部門大量洩露的 API 文件。”
菲甚金本人並未聲稱這些數據已被前Google員工證實來自Google搜尋。 寫下透過電子郵件發送資料的人提出了這個主張。
“該電子郵件進一步聲稱,這些洩露的文件已被谷歌前員工確認為真實的,並且這些前員工和其他人分享了有關谷歌搜索業務的額外和私人信息。”
菲甚金描述了隨後的視訊會議,洩密者透露,他與前谷歌員工的接觸是在一次搜尋行業活動中與他們見面的。 再次強調,我們必須相信洩密者對前谷歌員工的說法,他們所說的是仔細審查數據之後,而不是隨意評論。
菲甚金寫道,他就此聯繫了三名前谷歌員工。 值得注意的是,這些前Google員工並沒有明確確認這些數據是Google搜尋的內部數據。 他們只是確認這些數據類似於谷歌的內部訊息,而不是它來自谷歌搜尋。
菲甚金寫道,前Google員工告訴他的話:
- 「我在那裡工作時無法存取此程式碼。 但這看起來確實是合法的。
- “它具有內部 Google API 的所有功能。”
- “這是一個基於 Java 的 API。有人花了很多時間遵守 Google 的文檔和命名內部標準。”
- “我需要更多時間來確定,但這與我所知道的內部文件相符。”
- “我在簡短的評論中沒有看到任何跡象表明這是不合法的。”
說某個東西來自 Google 搜尋和說它來自 Google 是兩件不同的事情。
保持開放的心態
對數據保持開放的態度很重要,因為有很多事情尚未得到證實。 例如,不知道這是否是搜尋小組的內部文件。 這就是為什麼將這些數據作為可行的 SEO 建議可能不是一個好主意。
此外,不建議透過分析數據來具體確認長期持有的信念。 這就是人們陷入確認偏誤的原因。
確認偏誤的定義:
“確認偏誤是指以確認或支持先前信念或價值觀的方式搜尋、解釋、偏好和記住資訊的傾向。”
確認偏誤會導致一個人否認經驗上正確的事情。 例如,有一個幾十年前的想法,即Google會自動阻止新網站排名,這種理論稱為沙箱。 每天,人們都會報告說他們的新網站和新頁面幾乎立即排在 Google 搜尋的前十名中。
但如果你是沙盒的鐵桿信徒,那麼無論有多少人觀察到相反的體驗,這樣的實際可觀察體驗都會被刪除。
SEO 資深技術策略師和 Web 開發人員(LinkedIn 個人資料)Brenda Malone 向我發送了一條有關沙盒聲明的訊息:
「我個人從實際經驗中知道,沙盒理論是錯誤的。我剛剛在兩天內索引了一個有兩篇帖子的個人博客。在沙盒理論下,一個只有兩篇帖子的小網站不可能被索引。
這裡的底線是,如果文件最終來自谷歌搜索,那麼分析數據的錯誤方法是尋找長期信念的確認。
什麼是谷歌資料外洩?
關於洩漏的數據,需要牢記以下五點:
- 洩漏資訊的背景尚不清楚。 與谷歌搜尋有關嗎? 是為了其他目的嗎?
- 數據的目的。 這些資訊是否用於實際搜尋結果? 或者它用於內部數據管理或操作?
- 前谷歌員工並未證實這些數據是針對Google搜尋的。 他們只確認它似乎來自谷歌。
- 保持開放的心態。 如果你去尋找長期信念的辯護,你猜怎麼著? 你到處都會發現它們。 這稱為確認偏誤。
- 有證據表明,資料連結到外部 API 以建立文件儲存。
其他人對「洩漏」文件的看法。
Ryan Jones不僅在SEO方面擁有豐富的經驗,而且對IT也有著深入的了解,他分享了一些關於所謂資料外洩的明智觀察。
瑞安在推特上寫道:
「我們不知道這是用於生產還是測試。我猜這主要是為了測試潛在的變化。
我們不知道什麼是用於網路或其他垂直領域。 有些東西只能用於谷歌主頁或新聞等。
我們不知道機器學習演算法的輸入是什麼以及用於訓練它的是什麼。 我假設點擊不是直接輸入,而是用於訓練模型以預測可點擊性。 (脫離趨勢衝動)
我還假設其中一些欄位僅適用於訓練資料集,而不適用於所有網站。
我是說谷歌沒有撒謊嗎? 不是完全。 但我們冷靜地審查這次洩密事件,不帶任何先入為主的偏見。
@DavidGQuaid 發推文:
「我們也不知道這是否用於 Google 搜尋或 Google Cloud 文件檢索
API 似乎在挑選,這不是我期望演算法運行的方式; 如果工程師想要跳過所有這些品質檢查怎麼辦,看起來我想為我的業務知識庫建立一個內容倉庫應用程式。
「洩漏」的資料與Google搜尋有關嗎?
目前還沒有確鑿的證據表明這些「洩露」的數據實際上來自谷歌搜尋。 關於數據的用途存在大量的模糊性。 需要注意的是,有跡象表明,這些數據只是“顧名思義,用於創建文件存儲的外部 API”,與 Google 搜尋中網站的排名沒有任何關係。
關於這些數據並非來自谷歌搜尋的結論目前還不確定,但這就是證據之風似乎正在吹的地方。
精選圖片由 Shutterstock/Jaaak 提供