Close Menu
網上營銷專家 BLOG網上營銷專家 BLOG

    訂閱最新賺錢貼士

    獲取網上營銷專家 Online Marketing Leader 最新 網上創業 | 小本創業 | 批發 | 代購 | 網上推廣 | SEO | Dropshipping | 賺錢 | 網店製作貼士!

    熱門討論

    預先做好網上創業準備:為何比失業後再考慮更有利?

    October 21, 2024

    沒有網上快速致富的方法 – 不要落入“輕鬆賺錢”的陷阱!

    October 8, 2024

    為什麼要自己學懂在韓國直接以批發價入貨或直接從韓國時裝批發 agent 補貨?

    October 8, 2024
    Facebook Instagram YouTube WhatsApp
    網上營銷專家 BLOG網上營銷專家 BLOG
    Trending
    • 預先做好網上創業準備:為何比失業後再考慮更有利?
    • 沒有網上快速致富的方法 – 不要落入“輕鬆賺錢”的陷阱!
    • 為什麼要自己學懂在韓國直接以批發價入貨或直接從韓國時裝批發 agent 補貨?
    • 在網上銷售韓國時裝是需要講求技巧的
    • 為什麼要自己學懂營運及製作網上時裝店?
    • 10 個頁面會影響全站排名嗎?
    • Pod Digital Media 如何利用創新為品牌提供有意義的聯繫
    • ChatGPT 幫助您開展業務的 5 種方式
    Facebook Instagram YouTube WhatsApp
    • 首頁
    • 網店創業
      • 日貨網店創業課程
      • AI 韓國時裝網店創業課程
      • Amazon FBA 網店創業課程
      • AI Dropshipping 網店創業
      • 零成本網上創業
    • 網上推廣
      • Facebook 廣告行銷推廣課程
      • Canva 社交媒體應用課程
      • AI 數碼內容營銷課程
      • 社交媒體推廣
      • 多媒體推廣
      • 網上營銷
      • 聯盟行銷
    • 韓國批發
      • 3日2夜韓國批發創業課程
      • 韓國童裝批發代購課程
      • 韓國供應商資料
    • 日本批發
    • 泰國批發
    • 廣州十三行批發
    • 被動收入
    • SEO 優化
    • 折扣優惠
    網上營銷專家 BLOG網上營銷專家 BLOG
    Home » 它可以讓人工智慧更加可靠
    SEO

    它可以讓人工智慧更加可靠

    onlineadminBy onlineadminJanuary 31, 202401 Min Read
    Facebook Twitter Pinterest LinkedIn Tumblr WhatsApp Reddit Email
    Share
    Facebook Twitter LinkedIn Pinterest Email

    Google的 DeepMind 發表了一篇研究論文,提出了一種訓練大型語言模型的方法,以提供更可靠的答案並抵抗獎勵駭客攻擊,這是開發更具適應性和更有效率的人工智慧系統的一步。

    帽尖a @伊桑拉祖克 為了 關於一篇新研究論文的推文 來自谷歌 DeepMind。

    AI有賞金駭客傾向

    基於人類回饋的強化學習 (RLHF) 是一種用於訓練生成式 AI 的方法,使其能夠學習提供人類評分者正面評價的答案。 正分是對正確答案的獎勵,這就是為什麼這種技巧被稱為強化學習。 積極的評級是由人類評分者給予的,這就是為什麼它被稱為人類回饋強化學習的原因。

    RLHF 非常成功,但也有一個意想不到的副作用,即 AI 透過獲得正獎勵來學習捷徑。 它不是提供正確答案,而是提供看起來像正確答案的答案,當它愚弄人類評分者時(這是強化訓練的失敗),人工智慧開始提高其以不準確的方式欺騙人類評分者的能力。 獲得獎勵的反應(正面的人類評級)。

    人工智慧這種透過“作弊”來獲得訓練獎勵的傾向被稱為“獎勵黑客”,這正是本研究旨在盡量減少的現象。

    大型語言模型中獎勵黑客的原因

    為了解決賞金盜版問題,研究人員確定了導致賞金盜版的兩個領域,需要透過他們的解決方案來解決:

    1. 分佈變化
    2. 人類偏好的不一致

    分佈變化

    分佈轉變是指法學碩士在某種類型的資料集上進行訓練,然後在強化學習過程中接觸到以前從未見過的不同類型的訓練資料的情況。 這種資料類型的變化稱為分佈變化,它可能導致語言模型操縱獎勵系統給予令人滿意的回應,否則它不會準備好給出。

    人類偏好的不一致

    這是指人類在判斷人工智慧提供的回應時評分不一致。 例如,解決人類偏好不一致的問題可能是Google創建搜尋品質評估指南的動機之一,該指南具有減少主觀偏好影響的作用。

    人類的偏好因人而異。 人類回饋強化學習依賴於獎勵模式(RM)訓練過程中的人類回饋,而正是這種不一致可能導致獎勵盜版。

    正如研究人員指出的那樣,找到解決方案很重要:

    「這種賞金盜版現象引發了許多問題。

    首先,它會降低效能,表現為語言上有缺陷或不必要的詳細結果,不能反映真正的人類偏好。

    其次,由於 RM 代理的不可靠性,它使控制點的選擇變得複雜,這與古德哈特定律相呼應:“當一項措施成為目標時,它就不再是一個好的措施。”

    第三,它可能會產生同情或放大社會偏見,反映出回饋提供者的狹隘和偏見的人口統計。

    最後,也是最關鍵的是,獎勵盜版造成的錯位可能會增加安全風險,特別是考慮到法學碩士快速融入日常生活和關鍵決策中。 」

    加權平均獎勵模型(WARM)

    Google DeepMind 研究人員開發了一種名為權重平均獎勵模型(WARM)的系統,該系統透過組合多個單獨的獎勵模型(每個模型都有細微的差異)來創建代理模型。 使用 WARM,隨著獎勵模型 (RM) 數量的增加,它們會一起平均,結果顯著改善,系統避免了標準模型出現的可靠性突然下降的情況。

    WARM 系統由於使用了多個較小的模型,因此具有記憶體效率高的優點,並且不會減慢模型提供答案的能力,並且能夠抵抗獎勵駭客攻擊。

    WARM也使得模型在處理變更的資料時更加可靠和一致,並且更加一致。

    引起我注意的是它遵循「更新的機器學習範式」的能力,這是指 WARM 透過合併新資料或隨著時間的推移而發生的變化來適應和改進的能力,而不需要從零開始

    在下面的引用中,WA 代表加權平均,RM 代表獎勵模型。

    研究人員解釋:

    「WARM 代表了一種靈活務實的方法,可以提高人工智慧與人類價值和社會規範的一致性。

    …WARM 遵循可升級的機器學習範例,消除了伺服器到伺服器通訊的需要,從而允許 RM 的極其簡單的並行化。

    這有利於其在資料必須保持私有的聯邦學習場景中的使用; 此外,WA 將透過減少私人偏好記憶來增加一層隱私和偏見緩解措施。 然後,WARM 的一個簡單擴充將結合在不同資料集上訓練的 RM,例如來自不同標記器(池)的 RM。

    ……此外,由於 WA 已被證明可以限制災難性遺忘,WARM 可以完美支持迭代和不斷發展的偏好。

    限制

    這項研究指出了更多改進人工智慧的方法,但它並不是一個完整的解決方案,因為它有固有的限制。 問題之一是它並沒有完全消除所有形式的“偏好資料中固有的虛假相關性或偏差」。

    然而,他們對 WARM 的未來持樂觀態度:

    “我們的實證結果證明了其在應用於抽象時的有效性。我們預計 WARM 將有助於打造更一致、透明和有效的人工智慧系統,鼓勵對獎勵模型的進一步探索。”

    閱讀研究論文:

    熱門:平均體重獎勵模型的好處

    精選圖片由 Shutterstock/Mansel Birst 提供



    Source link

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    onlineadmin
    • Website

    Related Posts

    為什麼要自己學懂營運及製作網上時裝店?

    October 8, 2024

    10 個頁面會影響全站排名嗎?

    June 10, 2024

    谷歌悄然修復了搜尋結果中的網站名稱

    June 9, 2024
    Add A Comment
    Leave A Reply Cancel Reply

    Top Posts

    預先做好網上創業準備:為何比失業後再考慮更有利?

    October 21, 2024

    沒有網上快速致富的方法 – 不要落入“輕鬆賺錢”的陷阱!

    October 8, 2024

    為什麼要自己學懂在韓國直接以批發價入貨或直接從韓國時裝批發 agent 補貨?

    October 8, 2024
    Don't Miss

    預先做好網上創業準備:為何比失業後再考慮更有利?

    By onlineadminOctober 21, 2024 網店創業

    在不確定的經濟環境中,越來越多的人開始探索網上商業模式,期望能夠賺取額外收入,甚至轉變成全職事業。然而,很多人在失業或工作不穩定時才開始考慮創業,這種做法其實存在一些潛在風險和挑戰。相反,預先做好網上創業的準備,無論你目前的職業狀況如何,都能讓你在面對不確定性時更具彈性和應對能力。 在這篇文章中,我們將深入探討為何預先做好網上創業的準備,比起等到失業或面對工作危機時才考慮,會為你帶來更多優勢。 1. 掌握主動權,避開被動局面 一個人在失業後才決定創業,往往是在沒有其他選擇的情況下做出的選擇,這樣的創業動機可能較為被動。當你在職場上仍有穩定收入時開始準備創業,你便能以更從容的心態去進行市場調查、產品開發和品牌規劃,而不會因為經濟壓力而倉促做決定。 此外,網上創業需要的資源並不僅僅是時間和金錢,還有學習如何操作電子商務平台、建立品牌形象、掌握數碼行銷技巧等。這些都是需要時間去學習和實踐的,如果在失業後才匆忙上手,可能會導致決策失誤或錯失商機。而預先做好準備,你可以慢慢累積經驗,逐步調整自己的策略,讓創業過程更具可控性。 2. 資金與資源的準備時間 創業無論大小,都需要一定的資金投入,即使是網上創業也不例外。這些資金可能包括網站搭建、產品庫存、廣告推廣、工具訂閱等。失業後才開始創業,可能面臨資金不足的困境。而如果你在職時已經開始儲備創業資金,甚至能夠利用一部分收入投入創業,便能夠大幅減少財務壓力,讓你有更好的條件去經營業務。 同時,預先開始準備創業,還能幫助你找到適合的供應鏈合作夥伴、技術支援和行銷渠道。這些資源的建立需要時間和網絡,當你在穩定狀態下經營創業準備時,能夠更仔細地篩選和安排這些合作關係,確保日後正式開展業務時能夠順利進行。 3. 時間管理與創業學習的平衡 網上創業需要學習的技能眾多,例如電子商務平台的操作、數碼行銷、內容創作、SEO優化等。這些技能需要時間去熟練掌握。如果你是在失業後才開始學習這些,可能會面臨時間和壓力的雙重挑戰。然而,如果你在還有穩定收入的情況下,便能更有彈性地分配時間來學習這些技能。 例如,你可以利用下班時間參加網上創業課程,在週末開始嘗試小規模經營,從中學習如何與顧客溝通、處理物流等問題。這種漸進式的學習和實踐,能夠讓你在未來面對創業全職化時,有更好的基礎和信心。 4.…

    沒有網上快速致富的方法 – 不要落入“輕鬆賺錢”的陷阱!

    October 8, 2024

    為什麼要自己學懂在韓國直接以批發價入貨或直接從韓國時裝批發 agent 補貨?

    October 8, 2024
    Stay In Touch
    • Facebook
    • Instagram
    • YouTube
    • WhatsApp

    Follow Me!

    廣州十三行批發
    頁面
    • 關於我們
    • 聯絡我們
    • DMCA
    • Privacy Policy
    • Terms and Condition
    • Disclaimer
    精選推薦

    預先做好網上創業準備:為何比失業後再考慮更有利?

    October 21, 2024

    沒有網上快速致富的方法 – 不要落入“輕鬆賺錢”的陷阱!

    October 8, 2024

    為什麼要自己學懂在韓國直接以批發價入貨或直接從韓國時裝批發 agent 補貨?

    October 8, 2024

    訂閱最新賺錢貼士

    獲取網上營銷專家 Online Marketing Leader 最新 網上創業 | 小本創業 | 批發 | 代購 | 網上推廣 | SEO | Dropshipping | 賺錢 | 網店製作貼士!

    Type above and press Enter to search. Press Esc to cancel.