網(wǎng)上有很多關(guān)于pos機(jī)he什么意思,BERT和Transformer到底學(xué)到了什么 的知識(shí),也有很多人為大家解答關(guān)于pos機(jī)he什么意思的問題,今天pos機(jī)之家(www.tjfsxbj.com)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來看下吧!
本文目錄一覽:
pos機(jī)he什么意思
演講嘉賓 | 張俊林(新浪微博機(jī)器學(xué)習(xí)團(tuán)隊(duì)AI Lab負(fù)責(zé)人)
編輯 | Jane
出品 | AI科技大本營(yíng)(ID:rgznai100)
【導(dǎo)讀】BERT提出的這一年,也是NLP領(lǐng)域迅速發(fā)展的一年。學(xué)界不斷提出新的預(yù)訓(xùn)練模型,刷新各項(xiàng)任務(wù)指標(biāo),業(yè)界也不斷嘗試在工程問題中引用BERT、XLNet等預(yù)訓(xùn)練模型,那BERT為什么能有這么好的效果,深入其原理本身,又究竟好在哪里?在AI ProCon 2019大會(huì)上,新浪微博機(jī)器學(xué)習(xí)團(tuán)隊(duì)AI Lab負(fù)責(zé)人張俊林為大家深入分享了《BERT和Transformer到底學(xué)到了什么?》。
以下為張俊林的演講內(nèi)容實(shí)錄,AI科技大本營(yíng)(ID:rgznai100)整理:
張俊林:BERT和Transformer兩者間是什么關(guān)系?BERT 提出后,我一直在思考一個(gè)問題:BERT效果這么好,為什么?
Transformer是特征抽取器,和CNN、RNN并列用于特征抽取的一種深層級(jí)網(wǎng)絡(luò)結(jié)構(gòu),而BERT可視為一種兩階段的處理流程,這個(gè)流程使用的框架便是Transformer,再簡(jiǎn)單解釋,你可以理解為BERT利用Transformer學(xué)會(huì)如何編碼、存儲(chǔ)信息知識(shí)。這是兩者的關(guān)系。
在Transformer和BERT 之前,大家最常用的是CNN、RNN、Encoder-Decoder三大技術(shù),覆蓋了NLP領(lǐng)域80%的技術(shù)與應(yīng)用,Transformer和BERT比它們好在哪里?每層網(wǎng)絡(luò)學(xué)到了什么?多學(xué)了哪些知識(shí)?這些問題都是我一直在思考的,想在今天和大家分享一下目前的一些研究結(jié)論。
今天分享的第一部分是關(guān)于BERT和Transformer的簡(jiǎn)介。從基本原理、流程、優(yōu)缺點(diǎn)以及改進(jìn)點(diǎn)講起,帶領(lǐng)大家對(duì)它們有更直觀的了解。
第二部分,介紹下打開Transformer和Bert模型結(jié)構(gòu)黑盒的探尋方法。多層的Transformer 學(xué)習(xí)了哪類知識(shí)、以什么形式編碼、編碼哪一類的特征、每一層擅長(zhǎng)解決什么問題,要想了解這些,需要有些方便的手段理解這個(gè)黑盒子,本部分介紹目前有哪些常用的技術(shù)手段來探尋這些問題,介紹主流的探尋方法。
第三部分,也是大家最關(guān)心的內(nèi)容,通過上述介紹的探尋方法來研究BERT的參數(shù),看看它包含的奧秘,我們可以得到一些結(jié)論:BERT到底學(xué)到了什么?有預(yù)訓(xùn)練模型比無預(yù)訓(xùn)練模型到底多學(xué)習(xí)了什么?這部分介紹目前的一些結(jié)論。
最后,再和大家分享一些現(xiàn)有的結(jié)論與經(jīng)驗(yàn)。雖然在Bert在工程應(yīng)用中還存在一些問題,比如模型太大導(dǎo)致的在線推理延時(shí)高等問題,但是我想只要算法效果好,工程應(yīng)用不是阻礙,總能夠有辦法克服。
第一部分:BERT和Transformer
大家都知道,BERT是2018年10月提出來的,提出后無論是在工業(yè)界還是學(xué)術(shù)圈都產(chǎn)生了很大的影響,根本原因就是模型效果太好了,讓人不得不服,隨后各種應(yīng)用也取得了一些突破性的結(jié)果。之前我寫過一篇文章《Bert時(shí)代的創(chuàng)新:Bert在NLP各領(lǐng)域的應(yīng)用進(jìn)展 》,介紹了一些應(yīng)用情況,總體而言,BERT在各應(yīng)用方向中都取得了很好的效果,但不同領(lǐng)域中也存在一些不同的情況。如果把BERT視為NLP領(lǐng)域中一項(xiàng)里程碑式工作,相信大家對(duì)此不會(huì)質(zhì)疑。
BERT取得了這么好的效果,讓大家不禁想:將BERT嘗試應(yīng)用于自己的業(yè)務(wù)中,是否可以帶來好的業(yè)務(wù)效果提升?BERT模型本身又有哪些問題值得我們進(jìn)一步探索與思考呢?
我整理歸納了看過的文獻(xiàn)數(shù)據(jù),BERT在NLP各個(gè)領(lǐng)域中的應(yīng)用基本都有效果提升,但是不同領(lǐng)域的提升效果有所不同,同一領(lǐng)域中任務(wù)不同、數(shù)據(jù)集不同使提升效果也有所不同。下面簡(jiǎn)單概述一下某些領(lǐng)域的應(yīng)用效果情況(截止2019 年 5 月):QA領(lǐng)域中大多都嘗試使用了BERT模型,性能提升了30%到70%; 閱讀理解領(lǐng)域應(yīng)用BERT后性能有30%到50%的提升;信息檢索領(lǐng)域,短文檔檢索性能提升比長(zhǎng)文檔性能提升更明顯,短文檔提升了25%到106%,長(zhǎng)文檔提升了20%到30%;在對(duì)話機(jī)器人領(lǐng)域中,目前BERT可以使性能提升5%到40%;(這跟具體應(yīng)用、子任務(wù)有關(guān)系,有些子方向比較適合用BERT,有些可能不太適合。)文本摘要領(lǐng)域提升也不明顯,大約有10%左右,貌似BERT的潛力還未發(fā)揮出來;其他應(yīng)用諸如中文分詞、文本分類、文本生成都嘗試在工作中使用BERT,但是提升效果不太明顯。
到這里,我覺得有一個(gè)問題大家需要思考:看到這些結(jié)果和結(jié)論,問自己一下為什么會(huì)這樣子?為什么BERT對(duì)于不同的NLP應(yīng)用領(lǐng)域促進(jìn)效果相差這么大,背后的原因是什么?這是一個(gè)好問題。剛剛講到的都是BERT在應(yīng)用方面帶來的改進(jìn)效果,從BERT出現(xiàn)到今天,BERT之前的Transformer到現(xiàn)在也已經(jīng)有兩年多的時(shí)間,而無論是BERT還是Transformer,大家對(duì)它們復(fù)雜的內(nèi)在機(jī)理了解并不多,但這是值得探索的,有助于大家加深對(duì)BERT和Transformer的了解。
雖然BERT比較新,效果也好,但一定也存在一些缺點(diǎn),它既然有缺點(diǎn)我們就可以找到它的缺點(diǎn),改造缺點(diǎn),讓模型越來越強(qiáng),效果越來越好。接下來,我列舉一些BERT的可能改進(jìn)方向:
第一,文本生成模型。什么是文本生成呢?機(jī)器翻譯中把你英文句子輸入模型把它翻譯成中文,這是生成類的任務(wù);文本摘要,也是典型的生成類任務(wù),模型從文章中摘出三句話作為主題內(nèi)容的概括。雖然使用BERT模型在生成類任務(wù)中提升了效果,但提升不多,BERT在生成類任務(wù)中的作用還沒有發(fā)揮出來,應(yīng)該有更好的改造方法,這是非常重要的一個(gè)研究方向,如果這方面能做好,在很多的生成類任務(wù)比如機(jī)器翻譯、文本摘要的工作都會(huì)取得巨大的成果。
第二,結(jié)構(gòu)化知識(shí)引入。把人學(xué)好的結(jié)構(gòu)化的知識(shí)引入模型,如何在BERT中加入結(jié)構(gòu)化知識(shí),這也是一個(gè)有價(jià)值的改進(jìn)方向,可以直接用來解決我們手頭知識(shí)相關(guān)的NLP任務(wù)。
第三,多模態(tài)融合。我們現(xiàn)在應(yīng)用BERT大多數(shù)時(shí)候還是在文本,其實(shí)多模態(tài)的場(chǎng)景應(yīng)用非常多,比如發(fā)一條微博,里面包含很多的信息,有你發(fā)的文本內(nèi)容、圖片、視頻,還有社交關(guān)系在里面,要想充分理解一條微博,不僅要好好理解它的文本,還要理解圖片講了什么、視頻講了什么,這是不同的模態(tài)。不同模態(tài)又該怎么做到更好的融合?把BERT融入不同的模態(tài)體系,這肯定是非常有前景的BERT的改進(jìn)方向。
第四,更大、更高質(zhì)量的訓(xùn)練數(shù)據(jù)。怎么把數(shù)據(jù)量及訓(xùn)練方法進(jìn)一步優(yōu)化,是個(gè)簡(jiǎn)單直接的優(yōu)化方向。目前很多證據(jù)證明:直接增加訓(xùn)練數(shù)據(jù)規(guī)模和質(zhì)量,直接就會(huì)對(duì)Bert效果有明顯提升,這說明我們還沒走到預(yù)訓(xùn)練模型的天花板。BERT剛開始做預(yù)訓(xùn)練的時(shí)候數(shù)據(jù)量大約十幾G,假設(shè)有一家公司財(cái)大氣粗,錢不是問題,可以用無限量數(shù)據(jù)做預(yù)訓(xùn)練,那么毫無疑問Bert效果會(huì)有大幅度的提升。但是現(xiàn)在有人做這個(gè)事嗎?沒有,因?yàn)檫@太燒錢了。從現(xiàn)有的結(jié)果來看,假設(shè)某位同學(xué)很有錢,說我想改造一下BERT,很簡(jiǎn)單,加大數(shù)據(jù)規(guī)模,然后數(shù)據(jù)的形態(tài)更豐富一些,數(shù)據(jù)質(zhì)量更高一點(diǎn),你就做這個(gè)事,把數(shù)據(jù)堆上去,有可能做出比目前能看到BERT更好的指標(biāo)。通過增加數(shù)據(jù)繼續(xù)提升BERT效果,雖然這沒有什么技術(shù)含量,但其實(shí)是一個(gè)簡(jiǎn)單易行的解決方法。
第五,更合適的訓(xùn)練目標(biāo)和訓(xùn)練方法。這個(gè)也是相對(duì)簡(jiǎn)單的改進(jìn)方向,但是其實(shí)是特別容易見效的,目前也有一些工作。
第六,多語(yǔ)言融合。現(xiàn)在做的BERT是單語(yǔ)言,不同語(yǔ)言之間怎么在Bert體系里面融合起來,這也是目前BERT值得改進(jìn)的好方向之一。
當(dāng)然還有其它優(yōu)化方向,因?yàn)椴皇墙裉熘黝},所以不一一細(xì)說了,接下來,和大家分析一下BERT和BERT的層級(jí)結(jié)構(gòu)。
如圖所示,這是Transformer典型的層級(jí)結(jié)構(gòu),Transformer由若干個(gè)Block堆疊而成,作為基本構(gòu)件,每一個(gè)Block里是一個(gè)小生態(tài)系統(tǒng),里面又涉及很多技術(shù),其中四個(gè)最關(guān)鍵的子部分:Layer Norm、Skip Connection、自注意力和前饋神經(jīng)網(wǎng)絡(luò)。
BERT由兩階段構(gòu)成,每個(gè)階段有自己的特點(diǎn)和目標(biāo)。第一個(gè)階段是預(yù)訓(xùn)練階段,第二個(gè)階段是Fine-Tuning階段。預(yù)訓(xùn)練階段用大量無監(jiān)督的文本通過自監(jiān)督方式進(jìn)行訓(xùn)練,把文本包含的語(yǔ)言知識(shí)以參數(shù)形式編碼到Transformer中,F(xiàn)ine-Tuning一般是有監(jiān)督的,數(shù)據(jù)量比較小,在模型結(jié)構(gòu)上做分類任務(wù)以解決當(dāng)前任務(wù)。第一階段跟第二階段怎么連接起來的?在預(yù)訓(xùn)練階段Transformer學(xué)到了很多初始化的知識(shí),第二階段就把初始化網(wǎng)絡(luò)學(xué)到的語(yǔ)言知識(shí)拿來用,F(xiàn)ine-Tuning引入新的特征解決你的問題。
所以,為什么BERT效果這么好?為什么以前的模型效果沒有BERT好?因?yàn)?,第一階段編碼了文本中大量的語(yǔ)言學(xué)知識(shí),在Bert之前,沒有用那么多的文本數(shù)據(jù),而且是無監(jiān)督的方式。那么我們關(guān)心的是:BERT里的Transformer到底學(xué)到了什么?比傳統(tǒng)模型多學(xué)了什么知識(shí)?這是關(guān)鍵。
應(yīng)該說,Transformer和BERT都還不十分成熟,結(jié)構(gòu)又復(fù)雜,實(shí)際應(yīng)用也很復(fù)雜,如果沒有對(duì)它們的深入了解、不知道它們的結(jié)構(gòu)及優(yōu)缺點(diǎn),我們就很難能更好的改進(jìn)它們,以得到更好的BERT和Transformer。怎樣能加深對(duì)它們的認(rèn)識(shí)呢?這就是接下來要和大家深入探討的內(nèi)容。
第二部分:探尋方法
我們說了,Bert通過預(yù)訓(xùn)練,學(xué)到了語(yǔ)言知識(shí),那么這些知識(shí)在哪里?就在Transformer的參數(shù)里。但是,我們看到的都是一堆參數(shù),就是大量的數(shù)值,看不出里面的含義,于是問題轉(zhuǎn)化成了:我們?cè)趺粗蓝鄬拥腡ransformer的每層都學(xué)到了什么,有什么方法可以看出來它學(xué)到了什么?一般把這些技術(shù)叫做探尋方法,那么常用的探尋方法有哪些?
在開始講BERT的探尋方法之前,先從DNN這個(gè)著名的黑盒系統(tǒng)開始講起。大家都知道DNN效果好,但每個(gè)神經(jīng)元學(xué)到了什么,不知道;也看不到,不好理解,能看到就是一個(gè)神經(jīng)元的響應(yīng)值或大或??;神經(jīng)元之間的關(guān)系也不知道,大家不理解DNN是怎么工作的。學(xué)術(shù)界早就意識(shí)到這個(gè)問題了,自從DNN出來之后,好多人試圖尋找方法,試圖讓大家理解DNN是怎么工作的,探尋每個(gè)神經(jīng)元學(xué)了什么。特征可視化是典型的破解黑盒的方法,這個(gè)方法在圖像領(lǐng)域中很常用,但并不是通用的。今天要講的是BERT和Transformer的探尋方法。
目前有幾種典型的方法,第一是可視化(2D t-SEN),用2D圖的方式展示。如下圖所示,用Transformer的每層的特征,各自把名詞、短語(yǔ)進(jìn)行聚類,同一顏色代表同一類的短語(yǔ),如果聚類效果好,說明這層編碼了這類知識(shí)。通過這種方法,進(jìn)而知道哪一層適合解決什么問題,編碼哪些知識(shí),這是典型的可視化方法。
第二個(gè)方法是Attention圖。對(duì)探索Transformer所學(xué)到知識(shí)的探尋手段來說,Attention圖是非常關(guān)鍵的方法,它可以形象地觀察一個(gè)單詞和其它單詞的關(guān)系,聯(lián)系的緊密程度。如下圖所示,看一看介詞\'at\'和誰(shuí)的關(guān)系更密切?連接線越粗,表示聯(lián)系越緊密,值越大邊就畫得更粗一點(diǎn),發(fā)現(xiàn)跟\'Auction\'更粗,證明了BERT學(xué)到了介詞和主名詞之間的關(guān)系,更重要是通過Attention圖的方式能夠知道學(xué)到了哪些知識(shí)。
第三種方法是Probing Classifier。對(duì)于Transformer某一層某個(gè)單詞的Embedding節(jié)點(diǎn),如果想知道它學(xué)到了什么東西,怎么做?我們把Transformer結(jié)構(gòu)參數(shù)固定住,保持不變,知識(shí)已經(jīng)編碼在參數(shù)中,需要找到一種探尋方法,知道每個(gè)層次學(xué)到了什么。如下圖所示的例子很直觀,Transformer參數(shù)固定住,最高層Transformer對(duì)應(yīng)的單詞有個(gè)Embedding,表示通過各層學(xué)到的知識(shí),怎樣知道這個(gè)Embedding學(xué)到了什么?上面加入一個(gè)小分類網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)很簡(jiǎn)單,我們不希望它自身學(xué)習(xí)過多的知識(shí),只希望它利用Transformer已經(jīng)編碼好的知識(shí)去進(jìn)行詞性標(biāo)注,如果能標(biāo)注正確,表明Transformer這一層已經(jīng)編碼學(xué)到了詞性標(biāo)注相關(guān)知識(shí),如果標(biāo)注錯(cuò)誤表明沒有編碼這個(gè)知識(shí)。利用這樣一個(gè)簡(jiǎn)單分類器來完成某個(gè)具體任務(wù),而分類器里面的參數(shù)很少,基本沒有什么參數(shù),所有的決策信息來自于Transformer本身學(xué)到的知識(shí),如果任務(wù)能夠解決得很好,也就說明了Transformer中存儲(chǔ)的與這類任務(wù)相關(guān)的知識(shí)比較多。這樣就探測(cè)出了Transformer每一層到底學(xué)到了哪類知識(shí)。
還有一種改進(jìn)方法叫做Edge Probing Classifier。它和Probing Classifier的區(qū)別是什么?Probing Classifier只能判斷一個(gè)單詞對(duì)應(yīng)的Embedding節(jié)點(diǎn)學(xué)到了什么,但對(duì)于很多任務(wù)來說有其他的需求。比如如果我們需要知道一個(gè)短語(yǔ)、兩個(gè)單詞和三個(gè)單詞學(xué)到了什么,或者句中的A單詞和B單詞是什么關(guān)系,如何通過Edge Probing Classifier方式來獲知它學(xué)到了什么知識(shí)呢?如下圖所示,Transformer仍然固定參數(shù),簡(jiǎn)單分類器的輸入變成多節(jié)點(diǎn)輸入,上面的Span可能覆蓋一個(gè)片段,如一個(gè)單詞,兩個(gè)單詞,然后構(gòu)建一個(gè)簡(jiǎn)單的分類器解決分類任務(wù),進(jìn)而觀測(cè)預(yù)測(cè)的精準(zhǔn)性,根據(jù)預(yù)測(cè)準(zhǔn)確性,來獲知到底學(xué)到了什么知識(shí)。它和Probing Classifier的主要區(qū)別是能夠同時(shí)偵測(cè)多節(jié)點(diǎn)編碼的知識(shí)。
上面介紹的是一些常用的探測(cè)方法,有了這些探測(cè)方法,就能夠去看看Bert或者Transformer到底學(xué)到了什么知識(shí)了。如果歸納一下目前的研究結(jié)論的話,大致概述一下:BERT訓(xùn)練好之后,低層Transformer主要學(xué)習(xí)自然語(yǔ)言表層的特征,中層學(xué)習(xí)編碼句法信息,高層編碼了NLP的語(yǔ)義特征。很多實(shí)驗(yàn)都已證明這一結(jié)論。
怎么得出的這個(gè)結(jié)論?上圖的一系列任務(wù)中說明了為什么會(huì)得出這個(gè)結(jié)論。POS、成分分析、DEPS、Entities、SRL、COREF、關(guān)系分類,從上到下,越往下這個(gè)任務(wù)越需要偏向高層語(yǔ)義的知識(shí)才能解決好。POS詞性標(biāo)注是簡(jiǎn)單任務(wù),偏向表層特征,關(guān)系分類則是純語(yǔ)義的任務(wù),不理解語(yǔ)義便無法很好的解決任務(wù),從上到下逐漸趨向語(yǔ)義任務(wù)。柱狀圖表示要解決這個(gè)任務(wù),發(fā)揮作用的是Transformer的哪些層,得分越高,代表需要的層深越高。如關(guān)系分類任務(wù)的9.40和POS任務(wù)的3.39,意味著,關(guān)系分類任務(wù)更依賴于Transformer高層的貢獻(xiàn),POS任務(wù)的信息主要從Transformer低層中獲取,從圖中可以看出,隨著層深逐步增高,任務(wù)逐步趨向語(yǔ)義任務(wù)。
如果只把Transformer分為低、中、高層,這還是有些粗糙,我們希望再深入、更細(xì)致地剖析每層的作用大小。如上圖所示,橫坐標(biāo)表示Transformer有24層,縱坐標(biāo)代表發(fā)揮作用的大小,指標(biāo)高代表這一層發(fā)揮的作用越大。從圖中可以看出,解決好詞性標(biāo)注任務(wù),第一層、第二層、第三層、第四層貢獻(xiàn)最大,其他層貢獻(xiàn)不太大。用的是什么方式?就是上面剛剛講到的Probing Classifier方式,說明Transformer低層比較適合解決表層特征的任務(wù),詞性信息都被編碼在這里,也說明了低層編碼了表層和句法知識(shí)。從細(xì)分圖得出的具體結(jié)論可概括得到:句法知識(shí)具備Layer局部性,對(duì)某些層依賴性大,而語(yǔ)義知識(shí),不具備Layer局部性,知識(shí)編碼在各層中。
上面得到的結(jié)論是符合預(yù)期的,而接下來的這個(gè)結(jié)論比較有意思。如下圖中標(biāo)紅所示,Transformer高層傾向于編碼語(yǔ)義知識(shí),低層編碼句法知識(shí),而高層語(yǔ)義知識(shí)會(huì)對(duì)低層句法知識(shí)有反饋?zhàn)饔茫?jīng)過高層語(yǔ)義指導(dǎo)修正底層的句法特征。‘他在季后賽中抽了多倫多六支安打’,多倫多是個(gè)多義詞,可代表地名,也可以代表一個(gè)運(yùn)動(dòng)隊(duì),如果我們把這句話輸入Transformer或BERT結(jié)構(gòu)中,到底在某一層編碼的是‘多倫多’,還是‘多倫多隊(duì)’?這是我們希望知道的。
可以通過觀察0到12層的黃藍(lán)占比來判斷每層的編碼知識(shí),黃色表示判斷出‘多倫多’為(地名),藍(lán)色認(rèn)為是一個(gè)(隊(duì)名),從圖中我們看出,0層、1層、2層基本上不會(huì)認(rèn)為是‘多倫多隊(duì)’(隊(duì)名),判斷‘多倫多’是(地名);而高層中‘多倫多隊(duì)’占比凸顯了,為什么如此?因?yàn)锽ert發(fā)現(xiàn)了句中的單詞Smoked(抽打),發(fā)現(xiàn)了它和單詞”多倫多”存在施動(dòng)-受動(dòng)關(guān)系后,就更傾向于判斷多倫多是個(gè)隊(duì)名,這種語(yǔ)義知識(shí)是在高層編碼的,它反過來會(huì)影響中低層的判斷,從而說明了高層語(yǔ)義知識(shí)反過來可以修正低層的句法知識(shí)。
下面我們說明Transformer三層(低層、中層、高層)到底具體編碼了哪些語(yǔ)言學(xué)知識(shí)。低層對(duì)單詞位置信息的編碼比較充分。橫坐標(biāo)表示層深,可以看到第2層的結(jié)果就已經(jīng)很好了,而第四層編碼的預(yù)測(cè)結(jié)果則下滑的非常嚴(yán)重,說明低層對(duì)單詞位置進(jìn)行編碼,高層已經(jīng)基本丟失了位置信息,無法解決位置信息任務(wù);位置信息主要在低層來編碼學(xué)習(xí)的,高層編碼了低層單詞之間形成的結(jié)構(gòu)信息,位置信息只是低層給高層使用用于構(gòu)造單詞之間結(jié)構(gòu)關(guān)系。
此外,低層還對(duì)短語(yǔ)信息進(jìn)行編碼、對(duì)特殊符號(hào)進(jìn)行編碼。
中層是對(duì)句法信息的編碼。句法預(yù)測(cè)任務(wù)中,橫坐標(biāo)是24層的每一層,這是效果指標(biāo)。哪層對(duì)句法預(yù)測(cè)效果比較好,效果好也就意味著編碼信息更多,可以看出3到8層對(duì)句法預(yù)測(cè)比較好。
高層對(duì)語(yǔ)義信息進(jìn)行編碼。如下圖所示指帶消解任務(wù),代詞’He‘和‘She’可以指帶什么?BERT是否學(xué)習(xí)了?從圖中可以看出指代關(guān)系已經(jīng)編碼到BERT特征中了,因而解決效果比較好。
第三部分:BERT 的預(yù)訓(xùn)練比無預(yù)訓(xùn)練過程多學(xué)了什么?
預(yù)訓(xùn)練模型用上面提到的Probing Classifier方式完成探測(cè)后,再用無預(yù)訓(xùn)練、不用初始化的模型直接學(xué)習(xí)的模式,兩者進(jìn)行實(shí)驗(yàn)對(duì)比。我們會(huì)發(fā)現(xiàn):無預(yù)訓(xùn)練模型在句子長(zhǎng)度預(yù)測(cè)任務(wù)表現(xiàn)要好于預(yù)訓(xùn)練模型BERT,說明了預(yù)訓(xùn)練模型靠犧牲部分表層特征表達(dá)能力,獲得了更多、更豐富的復(fù)雜特征表達(dá)能力。
我們知道目前有很多不同的預(yù)訓(xùn)練模型,它們之間相比,有什么異同?Bert預(yù)訓(xùn)練模型相對(duì)其它模型多學(xué)到了什么?相對(duì)于Cove、Elmo等其它模型,Bert模型編碼了更多的句法信息,語(yǔ)義信息大致相當(dāng)。另外,BERT比GPT多學(xué)了什么東西?因?yàn)锽ERT層數(shù)更深,更有利于編碼語(yǔ)義特征。最后,相對(duì)傳統(tǒng)模型比如RNN和CNN,ELMO多學(xué)了什么東西?ELMO通過預(yù)訓(xùn)練,比CNN學(xué)到了更多、更長(zhǎng)的上下文特征。
最后我們概括一下,Bert的Transformer低層學(xué)了表層特征,中間層學(xué)了句法特征,高層學(xué)了語(yǔ)義特征,雖然目前都有相關(guān)工作在進(jìn)行,但還不夠細(xì)致,需要做更深入的探索,相信未來會(huì)有更多更好的研究出現(xiàn)。我今天的分享就到這里,謝謝大家!
以上就是關(guān)于pos機(jī)he什么意思,BERT和Transformer到底學(xué)到了什么 的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于pos機(jī)he什么意思的知識(shí),希望能夠幫助到大家!
