買以太坊 買以太坊
Ctrl+D 買以太坊
ads
首頁 > ADA > Info

GAS:預訓練模型ProphetNet:根據未來文本信息進行自然語言生成_CNN幣是什么幣

Author:

Time:1900/1/1 0:00:00

作者|劉大一恒、齊煒禎、晏宇、宮葉云、段楠、周明

編者按:微軟亞洲研究院提出新的預訓練模型ProphetNet,提出了一種新的自監督學習目標——同時預測多個未來字符,在序列到序列的多個自然語言生成任務都取得了優異性能。

大規模預訓練語言模型在自然語言理解和自然語言生成中都取得了突破性成果。這些模型通常使用特殊的自監督學習目標先在大規模無標記語料中進行預訓練,然后在下游任務上微調。

傳統自回歸語言模型通過估計文本語料概率分布被廣泛用于文本建模,序列到序列的建模,以及預訓練語言模型中。這類模型通常使用teacher-forcing的方法訓練,即每一時刻通過給定之前時刻的所有字符以預測下一個時刻的字符。然而,這種方式可能會讓模型偏向于依賴最近的字符,而非通過捕捉長依賴的信息去預測下一個字符。有如以下原因:局部的關系,如兩元字符的組合,往往比長依賴更強烈;Teacher-forcing每一時刻只考慮對下一個字符的預測,并未顯式地讓模型學習對其他未來字符的建模和規劃。最終可能導致模型對局部字符組合的學習過擬合,而對全局的一致性和長依賴欠擬合。尤其是當模型通過貪心解碼的方式生成序列時,序列往往傾向于維持局部的一致性而忽略有意義的全局結構。

日本總務省就元宇宙等用例征求意見:金色財經報道,日本總務省(MIC)正在就Web3時代元宇宙和其他信息的用例研究小組編制的報告草案征求意見。該研究小組的目的是組織與信息和通信管理有關的問題,如Web3時代的元宇宙的用例。報告指出,希望總務省和其他政府機構實施必要的舉措,解決報告中總結的政策問題,這將提高日本元宇宙用戶的便利性,擴大虛擬空間的利用案例。[2023/7/5 22:19:04]

ProphetNet

針對上述問題,我們提出了一個新的seq2seq預訓練模型,我們稱之為ProphetNet。該模型帶有一個新穎的自監督學習目標函數,即預測未來的N元組。與傳統seq2seq的Teacher-forcing每一時刻只預測下一個字符不同,ProphetNet每一時刻將學習去同時預測未來的N個字符。如圖1所示:

圖1:左邊是傳統的語言模型,每一時刻預測下一時刻的字符。右邊是Bigram形式下的ProphetNet,每一時刻同時預測未來的兩個字符。

Web3 SaaS開發者工具集平臺Hamster Network完成百萬美元種子輪融資,測試版產品正式上線:1月30日消息,據官方消息,Web3 SaaS 開發者工具集平臺 Hamster 宣布完成種子輪融資,本輪融資由 Waterdrip Capital 和 Stratified Capital 等機構參投。

Hamster 是一個一站式 DevOps 開發及運維工具,此次 Hamster 發布的版本里,Solidity5 模板、NFT,DAO 等多個合約模板被順利集成,用戶可以選擇相應模板來實現快速創建智能合約以及一鍵部署。同時可以使用 Hamster 進行合約的檢測和運維、有效提高開發的效率及質量。

Hamster 目前已開放公開測評,用戶可以自行注冊測試并在 Hamster Discord 相應頻道中提供反饋。[2023/1/30 11:36:31]

預測未來N元組這一自監督學習目標在訓練過程中顯式地鼓勵模型在預測下一個字符時考慮未來更遠的字符,做到對未來字符的規劃,以防止模型對強局部相關過擬合。

ProphetNet基于Transformer的seq2seq架構,其設計有兩個目標:1.模型能夠以高效的方式在訓練過程中完成每時刻同時預測未來的N個字符;2.模型可以靈活地轉換為傳統的seq2seq架構,以在推理或微調階段兼容現有的方法和任務。為此,我們受XLNet中Two-streamselfattention的啟發,提出了用于模型decoder端的N-streamself-attention機制。圖2展示了bigram形式下的N-streamself-attention樣例。

瑞銀將上市首只基于區塊鏈的數字債券:金色財經報道,瑞銀集團將上市首只基于區塊鏈的數字債券,該三年期債券價值約 3.7 億美元,票面利率為 2.33%。瑞銀表示該債券是首個來自銀行機構的,將在數字交易所上市、交易和結算的債券,且與普通債券具有相同的結構、法律地位和評級。該債券將在 SIX Digital Exchange 基于區塊鏈的平臺上發行,并在 SDX 和 SIX Swiss Exchange 進行交易。[2022/11/4 12:16:07]

除了原始的multi-headself-attention之外,N-streamself-attention包含了額外的N個predictingstreamself-attention,用于分別預測第n個未來時刻的字符所示。每一個predictingstream與mainstream共享參數,我們可以隨時關閉predictingstream以讓模型轉換回傳統seq2seq的模式。

土耳其央行計劃在2023年推出CBDC:10月26日消息,土耳其總統戰略和預算局周一提交了2023年總統年度計劃,其中包括對央行數字貨幣(CBDC)的討論。

該計劃的國際收支部分在“政策和措施”的子標題下指出,2023年“將實施基于區塊鏈的央行數字貨幣”,負責機構是土耳其央行,與當地財政部和科技研究機構合作;數字土耳其里拉系統將與數字身份和FAST(土耳其央行運營的支付系統)集成;土耳其央行將與其他銀行合作,開展CBDC的研發和測試工作。(CoinDesk)[2022/10/26 16:38:58]

圖2:(a)為mainstreamself-attention;(b)為1-stpredictingstreamself-attention;(c)為2-ndpredictingstreamself-attention;(d)展示了n-streamself-attention的輸入輸出及流程。

由于難以獲取到大量帶標記的序列對數據,我們用去噪的自編碼任務通過大量無標記文本預訓練ProphetNet。去噪的自編碼任務旨在輸入被噪音函數破壞后的序列,讓模型學習去復原原始序列。該任務被廣泛應于seq2seq模型的預訓練中,如MASS、BART、T5等。本文中使用MASS的預訓練方式,通過引入提出的predictingn-stream自監督學習目標函數預訓練ProphetNet。我們以bigram形式的ProphetNet為例,整個流程如圖3所示:

購物平臺CryptoRefills推出歐元穩定幣EUROC支付選項:6月30日消息,總部位于荷蘭的購物平臺CryptoRefills為其客戶推出了歐元穩定幣Euro Coin(EUROC)支付選項。

此前消息,USDC發行商Circle宣布將于6月30日在以太坊上發行由歐元支持的、受監管的穩定幣Euro Coin(EUROC),今年晚些時候支持其他區塊鏈。(The Paypers)[2022/6/30 1:42:41]

圖3:二元形式下的Prophet整體框架圖

實驗結果

我們使用兩個規模的語料數據訓練ProphetNet。ProphetNet包含12層的encoder和12層的decoder,隱層大小為1024。先在BERT所使用的BookCorpus+Wikipedia的數據上預訓練模型,將模型在Textsummarization和Questiongeneration兩個NLG任務上的三個數據集微調并評估模型性能。與使用同等規模數據的預訓練模型相比,ProphetNet在CNN/DailyMail、Gigaword和SQuAD1.1questiongeneration數據集上都取得了最高的性能,如表1-3所示。

表1:CNN/DailyMail測試集結果

表2:Gigaword測試集結果

表3:SQuAD1.1測試集結果SQuAD1.1交換驗證測試集結果

除了使用16GB的語料訓練模型,我們也進行了更大規模的預訓練實驗。該實驗中,我們使用了160GB的語料預訓練ProphetNet。我們展示了預訓練14個epoch后的ProphetNet在CNN/DailyMail和Gigaword兩個任務上微調和測試的結果。如表4所示。需要注意的是,在相同大小的訓練數據下,我們模型的預訓練epoch僅約為BART的三分之一。我們模型的訓練數據使用量僅約為T5和PEGASUSLARGE的五分之一,約為PEGASUSLARGE的二十分之一。盡管如此,我們的模型仍然在CNN/DailyMail上取得了最高的ROUGE-1和ROUGE-LF1scores。并在Gigaword上實現了新的state-of-the-art性能。

表4:模型經大規模語料預訓練后在CNN/DailyMail和Gigaword測試集的結果

為了進一步探索ProphetNet的性能,我們在不預訓練的情況下比較了ProphetNet和Transformer在CNN/DailyMail上的性能。實驗結果如表5所示,ProphetNet在該任務上超越了同等參數量的Transformer。

表5:模型不經過預訓練在CNN/DailyMail驗證集結果

總結

本文介紹了微軟亞洲研究院在序列到序列模型預訓練的一個工作:ProphetNet,該模型提出了一種新的自監督學習目標,在同一時刻同時預測多個未來字符。并通過提出的N-streamself-attention機制高效地實現了模型在該目標下的訓練。實驗表明,該模型在序列到序列的多個自然語言生成任務都取得了不錯的性能。我們將在之后嘗試使用更大規模的模型架構和語料進行預訓練,并進一步深入地探索該機制。

論文鏈接:https://arxiv.org/pdf/2001.04063.pdf

原力計劃

《原力計劃-學習力挑戰》正式開始!即日起至3月21日,千萬流量支持原創作者!更有專屬等你來挑戰

Python數據清理終極指南口罩檢測識別率驚人,這個Python項目開源了談論新型冠狀病、比特幣、蘋果公司……沃倫巴菲特受訪中的18個金句,值得一看!天貓超市回應大數據殺熟;華為MateXs被熱炒至6萬元;Elasticsearch7.6.1發布一張圖對比阿里、騰訊復工的區別不看就虧系列!這里有完整的Hadoop集群搭建教程,和最易懂的Hadoop概念!|附代碼

Tags:CNNGASBARCNN幣是什么幣GAS幣是什么幣BAR價格BAR幣

ADA
APP:朝鮮促韓推進涉反朝傳單立法,否則將落實解除朝韓軍事協議_APP

近日,朝鮮統一戰線部發言人發表談話,譴責“脫北者”從韓國往朝鮮方向散布反朝傳單以及韓方對此事的應對處理,并表明若韓方不采取相應措施,朝方將關閉位于開城工業園區的朝韓聯絡辦公室.

1900/1/1 0:00:00
CEC:研究|英國倫敦泰特美術館藏品的保存與修復_CEC幣是什么幣

特別聲明:本文為新華網客戶端新媒體平臺“新華號”賬號作者上傳并發布,僅代表作者觀點,不代表新華號的立場及觀點。新華號僅提供信息發布平臺。 文/劉曉陶北京聯合大學副教授.

1900/1/1 0:00:00
萊特幣:「打卡」2020時政模擬題每日一練(5.12)_比特幣最新價格行情走勢萊特幣官網查詢

知識在于日積月累,非一日而成時政是常識模塊中很重要的一部分對于考生來說知識面寬,不容易抓住重點小編特意梳理了2020年時政高頻考點每日一練希望小伙伴們通過練習在考試中拿高分! 掃碼回復 即可查看.

1900/1/1 0:00:00
比特幣:量子糾纏:來自暗網的神秘區塊鏈項目,即將改變世界格局_數字貨幣

暗網和加密貨幣的關系,還要從比特幣的誕生說起。2009年1月3日,比特幣橫空出世,并沒有得到廣泛的關注。2010年5月22日,一個叫LaszloHanyecz的程序員花一萬個BTC買了2個披薩.

1900/1/1 0:00:00
MCN:「電商&直播」或許只是塊被“熔煉”的黃金_人工智能

編者按:本文系投稿稿件,作者AI相撲社,版權歸原作者所有。近兩年,和電商直播有關的話題不絕于耳,薇婭、李佳琦、辛巴辛有志、散打哥等被人熟知.

1900/1/1 0:00:00
數字貨幣:字節跳動近日申請多個“字節游戲”商標;央行推進數字貨幣研發_CEO十大數字貨幣交易所排名

1、脫離完美世界祖龍娛樂“單飛”赴港IPO事件:曾獲完美世界、騰訊投資的移動游戲開放商,祖龍娛樂有限公司正式向港交所遞交招股書.

1900/1/1 0:00:00
ads