買以太坊 買以太坊
Ctrl+D 買以太坊
ads

AIN:ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_Chain

Author:

Time:1900/1/1 0:00:00

撰文:TanyaMalhotra

來源:Marktechpost

編譯:DeFi之道

圖片來源:由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功,大型語言模型正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI開發的ChatGPT是一個自然語言處理模型,允許用戶生成有意義的文本。不僅如此,它還可以回答問題,總結長段落,編寫代碼和電子郵件等。其他語言模型,如Pathways語言模型、Chinchilla等,在模仿人類方面也有很好的表現。

報告:Multichain價值1.3億美元的漏洞可能是內部人員所為:金色財經報道,Chainaanalysis在一份報告中將跨鏈橋Multichain價值1.3億美元的漏洞描述為有記錄以來最大的加密貨幣黑客攻擊之一,并表示該事件可能是內部人員所為。報告稱,像Multichain這樣的跨鏈橋協議因其實驗性質和處理的大量資產而成為黑客的目標。此外,Multichain最近遇到的麻煩,包括其首席執行官的失蹤,表明該漏洞可能是內部人員或幕后黑手。[2023/7/11 10:48:23]

大型語言模型使用強化學習來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋,而完成地不好則會有相應的懲罰。像ChatGPT這樣的LLM表現出的卓越性能都要歸功于強化學習。

現場丨鏈上ChainUP Joy:NFT最近火起來除了本身的應用場景,還接了DeFi的余熱:金色財經現場報道,10月19日,由金色財經主辦,鏈上ChainUP,脈沖科技,達摩院協辦的金色沙龍第56期在深圳舉辦,在圓桌討論環節,關于NFT為何會引爆市場,鏈上ChainUP深圳負責人Joy表示,?NFT早在幾年前就已經火過,之所以在近期引爆市場,可能有兩方面原因,一方面接了DeFi的余熱,另一方面就是它本身的應用場景。但因流動性挖礦高收益而火爆的DeFi+NFT會不會火爆一時,然后銷聲匿跡,Joy認為,去中心化金融是未來一個大方向,DeFi和NFT都有它的應用場景,因此短期內不會成為泡沫。但未來會怎樣,有待驗證。[2020/10/19]

ChatGPT使用來自人類反饋的強化學習,通過最小化偏差對模型進行微調。但為什么不是監督學習呢?一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢?人工智能和機器學習研究員SebastianRaschka在他的推特上分享了一些原因,即為什么強化學習被用于微調而不是監督學習。

Pierre Rochard:隨著ETH 2.0升級,計算ETH總供應量會變得更加復雜:比特幣咨詢公司Bitcoin Advisory創始人Pierre Rochard剛剛發推稱,隨著以太坊2.0的升級,計算目前的ETH總供應量只會變得更加復雜。[2020/8/9]

不使用監督學習的第一個原因是,它只預測等級,不會產生連貫的反應;該模型只是學習給與訓練集相似的反應打上高分,即使它們是不連貫的。另一方面,RLHF則被訓練來估計產生反應的質量,而不僅僅是排名分數。

SebastianRaschka分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和ChatGPT之間的連貫對話也是必要的,而監督學習無法提供這種獎勵。

不選擇SL的第三個原因是,它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上,改變反應中的個別單詞可能對整體損失只有很小的影響,但如果一個單詞被否定,產生連貫性對話的復雜任務可能會完全改變上下文。因此,僅僅依靠SL是不夠的,RLHF對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型,但根據經驗發現RLHF往往表現得更好。2022年的一篇論文《從人類反饋中學習總結》顯示,RLHF比SL表現得更好。原因是RLHF考慮了連貫性對話的累積獎勵,而SL由于其文本段落級的損失函數而未能很好做到這一點。

像InstructGPT和ChatGPT這樣的LLMs同時使用監督學習和強化學習。這兩者的結合對于實現最佳性能至關重要。在這些模型中,首先使用SL對模型進行微調,然后使用RL進一步更新。SL階段允許模型學習任務的基本結構和內容,而RLHF階段則完善模型的反應以提高準確性。

Tags:CHAAINChainHAIStorichainTHORChainsiliconvalleychainLafite Chain

狗狗幣最新價格
CROSS:一文了解Circle的新銀行合作伙伴Cross River Bank_CRO

本文來自Coindesk,原文作者:BrandyBetzOdaily星球日報譯者:Moni 3月13日.

1900/1/1 0:00:00
區塊鏈:金色午報 | 3月19日午間重要動態一覽_以太坊

7:00-12:00關鍵詞:CBDC、FDIC保險、CoinbaseCTO、USDC1.俄羅斯建立CBDC監管、發行的法律草案已獲立法者一讀批準;2.

1900/1/1 0:00:00
LVE:金色早報 | 國內外科技公司集體“壓減”元宇宙_BTCG

頭條 ▌國內外科技公司集體“壓減”元宇宙3月4日消息,隨著AIGC熱浪持續席卷,科技行業此前集體熱衷的元宇宙熱度下降.

1900/1/1 0:00:00
BTC:Bitfinex Alpha報告:比特幣 (BTC) 鏈上指標看漲_BIT

本周的鏈上數據報告指出,從長期來看,BTC的技術指標呈上漲趨勢。根據BitfinexAlphaReport的每周分析,它回顧了比特幣(BTC)的一些鏈上指標,這些指標似乎看漲,其中包括短期和長期.

1900/1/1 0:00:00
NFT:金色Web3.0日報 | Coinbase Wallet現已集成Optimism_ETH

DeFi數據 1、DeFi代幣總市值:431.31億美元 DeFi總市值及前十代幣數據來源:coingecko2、過去24小時去中心化交易所的交易量36.

1900/1/1 0:00:00
數字人:關于虛擬資產、元宇宙、數字藏品 今年兩會有哪些提案和聲音?_加密貨幣

整理:西柚 2023年全國兩會期間,人大代表、政協委員依然關注虛擬資產和元宇宙相關產業等,其中,有關虛擬資產和數字藏品的監管與立法等相關議題成為代表們集中關注的重點.

1900/1/1 0:00:00
ads