因此,讓我們從 ChatGPT 必須執行的步驟開始,例如,為您提供問題的答案。 同樣,就像搜尋引擎一樣,它們必須先收集資料。
然後他們需要以他們能夠訪問的格式保存數據,然後他們需要在最後給你一個答案,這有點像排名。 如果我們從收集資料開始,這是最接近我們所了解和喜愛的搜尋引擎的部分。 所以他們基本上是在訪問網頁,在互聯網上爬行,如果他們沒有訪問過網頁或沒有獲得其他資訊來源,他們只是不知道答案。 他們在這裡處於劣勢,因為搜尋引擎一直在這樣做,幾十年來一直在記錄這些信息,而他們才剛剛開始。
所以他們還有很多事情要做。 網路上有很多不同的角落他們還沒有真正能夠訪問過。 他們可以做的事情之一是聊天數據,他們可以收集其他搜尋引擎無法存取的資訊。 因此,當您使用這些平台時,他們會收集有關您放入的內容以及如何與其互動的數據,並將這些數據輸入到他們的培訓模型中。
因此,當您使用 ChatGPT 這樣的平台時,您需要注意的一件事是,如果您將私人資料放入其中,那麼在您這樣做後,它不一定是私人的。 因此,您可能需要查看您的設定或考慮使用 API,因為它們往往承諾不會使用 API 資料進行訓練。 如果我們進入第二階段,保存該訊息,這就是我們所說的搜尋索引,這就是事情有點分歧的地方,但仍然有很多相似之處。
因此,在搜尋引擎的早期,實際上索引,它們保存的資料並沒有按照我們習慣的方式即時更新。 某些東西一出現在網路上,我們就無法確定它會出現在搜尋引擎的某個地方。 更重要的是他們每隔幾個月就會更新一次,因為它非常昂貴。 他們進行這些索引更新的時間和金錢成本很高。 目前我們在大型語言模型方面也處於類似的情況。
您可能已經註意到,他們經常說:“好的,我們已經更新了內容。” 它獲得的資訊現在可以持續到四月或類似的時間。 這是因為當他們想要將更多資訊放入模型中時,他們實際上必須重新訓練整個過程。 再說一遍,他們這樣做的成本非常高。 這兩個限制都會影響您最終得到的答案。
我相信你已經看過這個。 您可能正在使用 ChatGPT,但它沒有碰巧看到您所詢問的信息,或者它所擁有的信息已過時。