當(dāng)前位置:首頁(yè) > 團(tuán)建方案 > 諾亞方舟拓展訓(xùn)練(諾亞方舟心理游戲流程)

      諾亞方舟拓展訓(xùn)練(諾亞方舟心理游戲流程)

      admin3年前 (2022-04-27)團(tuán)建方案

      出品 | AI科技大本營(yíng)(ID:rgznai100)

      BERT之后,新的預(yù)訓(xùn)練語(yǔ)言模型XLnet、RoBERTa、ERNIE不斷推出,這次,華為諾亞方舟實(shí)驗(yàn)室開(kāi)源了基于BERT的中文預(yù)訓(xùn)練語(yǔ)言模型NEZHA(哪吒),寓意模型能像哪吒那樣三頭六臂、大力出奇跡,可以處理很多不同的自然語(yǔ)言任務(wù)。

      據(jù)介紹,當(dāng)前版本的NEZHA基于BERT模型,并進(jìn)行了多處優(yōu)化,能夠在一系列中文自然語(yǔ)言理解任務(wù)達(dá)到先進(jìn)水平。

      NEZHA模型的實(shí)驗(yàn)中采用了5個(gè)中文自然語(yǔ)言理解任務(wù),即CMRC(中文閱讀理解)、XNLI(自然語(yǔ)言推斷)、LCQMC(句義匹配)、PD-NER (命名實(shí)體識(shí)別任務(wù))、ChnSenti(情感分類)。

      研究人員在中文維基百科、中文新聞、百度百科數(shù)據(jù)上訓(xùn)練NEZHA模型,并且和谷歌發(fā)布的中文BERT,以及哈工大和科大訊飛聯(lián)合發(fā)布的BERT-WWM,還有百度發(fā)布的ERNIE-Baidu進(jìn)行了比較。從下表可以看出,NEZHA在XNLI,LCQMC,PeoplesDaily NER,ChnSenti任務(wù)上達(dá)到了先進(jìn)水平(SOTA)。表中NEZHA,NEZHA-WWM和NEZHA-Span分別代表由原始的BERT預(yù)訓(xùn)練任務(wù)訓(xùn)練得到的,加入全詞Mask訓(xùn)練得到的以及加入Span預(yù)測(cè)任務(wù)訓(xùn)練得到的NEZHA模型(三者均使用了全函數(shù)式相對(duì)位置編碼)。

      諾亞方舟拓展訓(xùn)練

      GitHub鏈接:

      https://github.com/huawei-noah/Pretrained-Language-Model/blob/master/README.md

      論文鏈接:

      https://arxiv.org/abs/1909.00204

      此外,諾亞方舟實(shí)驗(yàn)室還開(kāi)源了TinyBERT預(yù)訓(xùn)練語(yǔ)言模型。

      盡管語(yǔ)言模型預(yù)訓(xùn)練(例如BERT)大大改善了許多自然語(yǔ)言處理任務(wù)的性能。但是,預(yù)訓(xùn)練語(yǔ)言模型通常在計(jì)算上昂貴且占用了大量?jī)?nèi)存,因此很難在某些資源受限的設(shè)備上有效執(zhí)行它們。為了加快推理速度、減小模型大小并同時(shí)保持精度,華為研究人員提出了一種新穎的transformer蒸餾方法,該方法是針對(duì)基于transformer模型專門(mén)設(shè)計(jì)的知識(shí)蒸餾(KD)方法。

      通過(guò)利用這種新的知識(shí)蒸餾方法,可以將BERT中編碼的大量知識(shí)很好地轉(zhuǎn)移到TinyBERT。此外,他們?yōu)門(mén)inyBERT引入了一個(gè)新的兩階段學(xué)習(xí)框架,該框架在預(yù)訓(xùn)練階段和特定任務(wù)的學(xué)習(xí)階段都執(zhí)行transformer蒸餾方法。該框架確保TinyBERT可以捕獲BERT的一般領(lǐng)域知識(shí)和特定任務(wù)知識(shí)。在GLUE基準(zhǔn)測(cè)試中,TinyBERT相比BERT小7.5倍,比其推理的速度快9.4倍,并且在自然語(yǔ)言理解任務(wù)中具有競(jìng)爭(zhēng)優(yōu)勢(shì)。

      它在預(yù)訓(xùn)練和特定任務(wù)的學(xué)習(xí)階段都運(yùn)行了新型的transformer蒸餾方法。TinyBERT學(xué)習(xí)的概述如下所示:

      諾亞方舟拓展訓(xùn)練

      論文鏈接:

      https://arxiv.org/abs/1909.10351

      NEZHA預(yù)訓(xùn)練語(yǔ)言模型的三大改進(jìn)維度

      據(jù)諾亞方舟實(shí)驗(yàn)室的官方資料,NEZHA(哪吒)基于BERT在模型、預(yù)訓(xùn)練任務(wù)和訓(xùn)練算法三個(gè)維度進(jìn)行了改進(jìn)。

      諾亞方舟拓展訓(xùn)練

      模型改進(jìn):BERT的網(wǎng)絡(luò)架構(gòu)是一個(gè)多層的Transformer網(wǎng)絡(luò),由于Transformer并沒(méi)有直接考慮輸入的token的位置信息,原始的Transformer模型和BERT分別采用了函數(shù)式和參數(shù)式的絕對(duì)位置編碼方式,即每一個(gè)位置上的輸入的token會(huì)疊加一個(gè)與位置信息相關(guān)的一個(gè)embedding(這個(gè)embedding稱為絕對(duì)位置編碼:absolute position embedding,APE),前者的位置編碼是一個(gè)與位置相關(guān)的函數(shù),后者則是模型參數(shù)的一部分,在預(yù)訓(xùn)練過(guò)程中學(xué)到的。

      此后,又有工作提出了相對(duì)位置編碼方式,即在每一層計(jì)算隱狀態(tài)的相互依賴的時(shí)候考慮他們之間的相對(duì)位置關(guān)系,這個(gè)相對(duì)位置信息表示為一個(gè)相對(duì)位置編碼(relative position embedding,RPE),已有工作均在相對(duì)位置編碼中加入了可學(xué)習(xí)的參數(shù)。本工作在BERT模型中使用了完全函數(shù)式的相對(duì)位置編碼(相對(duì)位置編碼沒(méi)有任何需要學(xué)習(xí)的參數(shù)),實(shí)驗(yàn)結(jié)果表明該位置編碼方式使得模型在各個(gè)下游任務(wù)上的效果均得到明顯提升。

      預(yù)訓(xùn)練任務(wù):本工作引入了全詞Mask技術(shù),即不同于原始的BERT模型Mask單個(gè)中文字,該技術(shù)在MLM預(yù)訓(xùn)練任務(wù)中Mask整個(gè)詞而不是單個(gè)字(如下圖全詞Mask方法Mask了一整個(gè)詞“華為”),進(jìn)而提升了任務(wù)難度使得BERT學(xué)到更多語(yǔ)義信息。

      諾亞方舟拓展訓(xùn)練

      此外,借鑒SpanBERT ,NEZHA模型還引入了Span預(yù)測(cè)任務(wù),該任務(wù)Mask一個(gè)連續(xù)的Span(例如下圖中“機(jī)”,“很”,“不”三個(gè)字),利用Span前后的兩個(gè)字的最上層表示(下圖中的x3和x7)以及待預(yù)測(cè)字的位置信息來(lái)預(yù)測(cè)該字,如下圖中,待預(yù)測(cè)字為“不”,Span預(yù)測(cè)任務(wù)會(huì)使用x3,x7和“不“”這個(gè)字的位置信息(就是x3和x6還有x6和x7之間的相對(duì)位置編碼)來(lái)預(yù)測(cè)該字,“機(jī)”和“很”的預(yù)測(cè)也是同樣的方法。

      該方法使得Span前后的字的表示會(huì)包含Span中字的語(yǔ)義信息,由于在訓(xùn)練過(guò)程中,一個(gè)句子會(huì)被隨機(jī)Mask很多次,所以句子中每個(gè)字都有機(jī)會(huì)成為Span的前后字,進(jìn)而使得各個(gè)字學(xué)到的表示都會(huì)包含周圍Span的信息,Span預(yù)測(cè)任務(wù)能夠有效提高模型在下游的Span抽取任務(wù)(此任務(wù)的目標(biāo)是獲取一段文字中目標(biāo)片段的開(kāi)始和結(jié)束位置)的效果。

      諾亞方舟拓展訓(xùn)練

      訓(xùn)練算法:在訓(xùn)練過(guò)程中,采用混合精度訓(xùn)練(Mixed Precision Training)方式,在傳統(tǒng)的深度學(xué)習(xí)訓(xùn)練過(guò)程中,所有的變量包括weight,activation和gradient都是用FP32(單精度浮點(diǎn)數(shù))來(lái)表示。而在混合精度訓(xùn)練過(guò)程中,每一個(gè)step會(huì)為模型的所有weight維護(hù)一個(gè)FP32的copy,稱為Master Weights,在做前向和后向傳播過(guò)程中,Master Weights會(huì)轉(zhuǎn)換成FP16(半精度浮點(diǎn)數(shù))格式,權(quán)重,激活函數(shù)和梯度都是用FP16進(jìn)行表示,最后梯度會(huì)轉(zhuǎn)換成FP32格式去更新Master Weights。

      優(yōu)化器方面使用了LAMB優(yōu)化器,通常在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的Batch Size很大的情況下(超過(guò)一定閾值)會(huì)給模型的泛化能力帶來(lái)負(fù)面影響,而LAMB優(yōu)化器通過(guò)一個(gè)自適應(yīng)式的方式為每個(gè)參數(shù)調(diào)整learning rate,能夠在Batch Size很大的情況下不損失模型的效果,使得模型訓(xùn)練能夠采用很大的Batch Size,進(jìn)而極大提高訓(xùn)練速度。在訓(xùn)練BERT的研究中,使用LAMB優(yōu)化器在不損失模型效果的前提下,Batch Size達(dá)到了超過(guò)30k,使得BERT的訓(xùn)練時(shí)間從3天降到了76分鐘。

      掃描二維碼推送至手機(jī)訪問(wèn)。

      版權(quán)聲明:本文由一點(diǎn)團(tuán)建發(fā)布,如需轉(zhuǎn)載請(qǐng)注明出處。

      本頁(yè)地址:http://www.927792.com/post/158717.html

      主站蜘蛛池模板: 久久久久亚洲av成人无码| 狠狠色伊人亚洲综合成人| 国产成人一区二区三区视频免费 | 国产成人亚综合91精品首页| 成人18xxxx网站| 91成人在线观看视频| 成人免费视频一区二区三区| 免费成人av电影| 成人免费视频软件网站| 成人午夜免费福利视频| 久久精品噜噜噜成人av| 欧美成人在线视频| 国产成人av在线影院| 成人福利免费视频| 亚洲人成人一区二区三区| 国产成人无码精品久久二区三区| 久久亚洲最大成人网4438| 国产成人久久一区二区三区 | 欧美成人777| 亚洲国产成人久久精品影视| 成人久久久久久| 成人欧美一区二区三区| 精品无码成人网站久久久久久 | 成人窝窝午夜看片| 亚洲av无码成人网站在线观看| 成人亚洲欧美激情在线电影| 成人爽爽激情在线观看| 精品成人一区二区三区免费视频| 亚洲精品成人网站在线观看| 国产精品成人99久久久久| 成人午夜18免费看| 在线观看免费成人| 国产成人精品免费视频大全五级| 成人区人妻精品一区二区不卡网站| 欧美成人高清手机在线视频| 久久成人无码国产免费播放| 四虎成人免费观看在线网址| 国产69久久精品成人看| 四虎影视成人永久在线播放 | 成人国产在线24小时播放视频| 欧美成人鲁丝片在线观看|