pos機(jī)he什么意思,BERT和Transformer到底學(xué)到了什么

新聞資訊 | 2023-04-21 10:33 | 投稿人：pos機(jī)之家

網(wǎng)上有很多關(guān)于pos機(jī)he什么意思,BERT和Transformer到底學(xué)到了什么的知識(shí)，也有很多人為大家解答關(guān)于pos機(jī)he什么意思的問題，今天pos機(jī)之家(www.tjfsxbj.com)為大家整理了關(guān)于這方面的知識(shí)，讓我們一起來看下吧!

本文目錄一覽：

1、pos機(jī)he什么意思

pos機(jī)he什么意思

演講嘉賓 | 張俊林（新浪微博機(jī)器學(xué)習(xí)團(tuán)隊(duì)AI Lab負(fù)責(zé)人）

編輯 | Jane

出品 | AI科技大本營(yíng)（ID：rgznai100）

【導(dǎo)讀】BERT提出的這一年，也是NLP領(lǐng)域迅速發(fā)展的一年。學(xué)界不斷提出新的預(yù)訓(xùn)練模型，刷新各項(xiàng)任務(wù)指標(biāo)，業(yè)界也不斷嘗試在工程問題中引用BERT、XLNet等預(yù)訓(xùn)練模型，那BERT為什么能有這么好的效果，深入其原理本身，又究竟好在哪里？在AI ProCon 2019大會(huì)上，新浪微博機(jī)器學(xué)習(xí)團(tuán)隊(duì)AI Lab負(fù)責(zé)人張俊林為大家深入分享了《BERT和Transformer到底學(xué)到了什么？》。

以下為張俊林的演講內(nèi)容實(shí)錄，AI科技大本營(yíng)（ID：rgznai100）整理：

張俊林：BERT和Transformer兩者間是什么關(guān)系？BERT 提出后，我一直在思考一個(gè)問題：BERT效果這么好，為什么？

Transformer是特征抽取器，和CNN、RNN并列用于特征抽取的一種深層級(jí)網(wǎng)絡(luò)結(jié)構(gòu)，而BERT可視為一種兩階段的處理流程，這個(gè)流程使用的框架便是Transformer，再簡(jiǎn)單解釋，你可以理解為BERT利用Transformer學(xué)會(huì)如何編碼、存儲(chǔ)信息知識(shí)。這是兩者的關(guān)系。

在Transformer和BERT 之前，大家最常用的是CNN、RNN、Encoder-Decoder三大技術(shù)，覆蓋了NLP領(lǐng)域80%的技術(shù)與應(yīng)用，Transformer和BERT比它們好在哪里？每層網(wǎng)絡(luò)學(xué)到了什么？多學(xué)了哪些知識(shí)？這些問題都是我一直在思考的，想在今天和大家分享一下目前的一些研究結(jié)論。

今天分享的第一部分是關(guān)于BERT和Transformer的簡(jiǎn)介。從基本原理、流程、優(yōu)缺點(diǎn)以及改進(jìn)點(diǎn)講起，帶領(lǐng)大家對(duì)它們有更直觀的了解。

第二部分，介紹下打開Transformer和Bert模型結(jié)構(gòu)黑盒的探尋方法。多層的Transformer 學(xué)習(xí)了哪類知識(shí)、以什么形式編碼、編碼哪一類的特征、每一層擅長(zhǎng)解決什么問題，要想了解這些，需要有些方便的手段理解這個(gè)黑盒子，本部分介紹目前有哪些常用的技術(shù)手段來探尋這些問題，介紹主流的探尋方法。

第三部分，也是大家最關(guān)心的內(nèi)容，通過上述介紹的探尋方法來研究BERT的參數(shù)，看看它包含的奧秘，我們可以得到一些結(jié)論：BERT到底學(xué)到了什么？有預(yù)訓(xùn)練模型比無預(yù)訓(xùn)練模型到底多學(xué)習(xí)了什么？這部分介紹目前的一些結(jié)論。

最后，再和大家分享一些現(xiàn)有的結(jié)論與經(jīng)驗(yàn)。雖然在Bert在工程應(yīng)用中還存在一些問題，比如模型太大導(dǎo)致的在線推理延時(shí)高等問題，但是我想只要算法效果好，工程應(yīng)用不是阻礙，總能夠有辦法克服。

第一部分：BERT和Transformer

大家都知道，BERT是2018年10月提出來的，提出后無論是在工業(yè)界還是學(xué)術(shù)圈都產(chǎn)生了很大的影響，根本原因就是模型效果太好了，讓人不得不服，隨后各種應(yīng)用也取得了一些突破性的結(jié)果。之前我寫過一篇文章《Bert時(shí)代的創(chuàng)新：Bert在NLP各領(lǐng)域的應(yīng)用進(jìn)展》，介紹了一些應(yīng)用情況，總體而言，BERT在各應(yīng)用方向中都取得了很好的效果，但不同領(lǐng)域中也存在一些不同的情況。如果把BERT視為NLP領(lǐng)域中一項(xiàng)里程碑式工作，相信大家對(duì)此不會(huì)質(zhì)疑。

BERT取得了這么好的效果，讓大家不禁想：將BERT嘗試應(yīng)用于自己的業(yè)務(wù)中，是否可以帶來好的業(yè)務(wù)效果提升？BERT模型本身又有哪些問題值得我們進(jìn)一步探索與思考呢？

我整理歸納了看過的文獻(xiàn)數(shù)據(jù)，BERT在NLP各個(gè)領(lǐng)域中的應(yīng)用基本都有效果提升，但是不同領(lǐng)域的提升效果有所不同，同一領(lǐng)域中任務(wù)不同、數(shù)據(jù)集不同使提升效果也有所不同。下面簡(jiǎn)單概述一下某些領(lǐng)域的應(yīng)用效果情況（截止2019 年 5 月）：QA領(lǐng)域中大多都嘗試使用了BERT模型，性能提升了30%到70%; 閱讀理解領(lǐng)域應(yīng)用BERT后性能有30%到50%的提升；信息檢索領(lǐng)域，短文檔檢索性能提升比長(zhǎng)文檔性能提升更明顯，短文檔提升了25%到106%，長(zhǎng)文檔提升了20%到30%；在對(duì)話機(jī)器人領(lǐng)域中，目前BERT可以使性能提升5%到40%；（這跟具體應(yīng)用、子任務(wù)有關(guān)系，有些子方向比較適合用BERT，有些可能不太適合。）文本摘要領(lǐng)域提升也不明顯，大約有10%左右，貌似BERT的潛力還未發(fā)揮出來；其他應(yīng)用諸如中文分詞、文本分類、文本生成都嘗試在工作中使用BERT，但是提升效果不太明顯。

到這里，我覺得有一個(gè)問題大家需要思考：看到這些結(jié)果和結(jié)論，問自己一下為什么會(huì)這樣子？為什么BERT對(duì)于不同的NLP應(yīng)用領(lǐng)域促進(jìn)效果相差這么大，背后的原因是什么？這是一個(gè)好問題。剛剛講到的都是BERT在應(yīng)用方面帶來的改進(jìn)效果，從BERT出現(xiàn)到今天，BERT之前的Transformer到現(xiàn)在也已經(jīng)有兩年多的時(shí)間，而無論是BERT還是Transformer，大家對(duì)它們復(fù)雜的內(nèi)在機(jī)理了解并不多，但這是值得探索的，有助于大家加深對(duì)BERT和Transformer的了解。

雖然BERT比較新，效果也好，但一定也存在一些缺點(diǎn)，它既然有缺點(diǎn)我們就可以找到它的缺點(diǎn)，改造缺點(diǎn)，讓模型越來越強(qiáng)，效果越來越好。接下來，我列舉一些BERT的可能改進(jìn)方向：

第一，文本生成模型。什么是文本生成呢？機(jī)器翻譯中把你英文句子輸入模型把它翻譯成中文，這是生成類的任務(wù)；文本摘要，也是典型的生成類任務(wù)，模型從文章中摘出三句話作為主題內(nèi)容的概括。雖然使用BERT模型在生成類任務(wù)中提升了效果，但提升不多，BERT在生成類任務(wù)中的作用還沒有發(fā)揮出來，應(yīng)該有更好的改造方法，這是非常重要的一個(gè)研究方向，如果這方面能做好，在很多的生成類任務(wù)比如機(jī)器翻譯、文本摘要的工作都會(huì)取得巨大的成果。

第二，結(jié)構(gòu)化知識(shí)引入。把人學(xué)好的結(jié)構(gòu)化的知識(shí)引入模型，如何在BERT中加入結(jié)構(gòu)化知識(shí)，這也是一個(gè)有價(jià)值的改進(jìn)方向，可以直接用來解決我們手頭知識(shí)相關(guān)的NLP任務(wù)。

第三，多模態(tài)融合。我們現(xiàn)在應(yīng)用BERT大多數(shù)時(shí)候還是在文本，其實(shí)多模態(tài)的場(chǎng)景應(yīng)用非常多，比如發(fā)一條微博，里面包含很多的信息，有你發(fā)的文本內(nèi)容、圖片、視頻，還有社交關(guān)系在里面，要想充分理解一條微博，不僅要好好理解它的文本，還要理解圖片講了什么、視頻講了什么，這是不同的模態(tài)。不同模態(tài)又該怎么做到更好的融合？把BERT融入不同的模態(tài)體系，這肯定是非常有前景的BERT的改進(jìn)方向。

第四，更大、更高質(zhì)量的訓(xùn)練數(shù)據(jù)。怎么把數(shù)據(jù)量及訓(xùn)練方法進(jìn)一步優(yōu)化，是個(gè)簡(jiǎn)單直接的優(yōu)化方向。目前很多證據(jù)證明：直接增加訓(xùn)練數(shù)據(jù)規(guī)模和質(zhì)量，直接就會(huì)對(duì)Bert效果有明顯提升，這說明我們還沒走到預(yù)訓(xùn)練模型的天花板。BERT剛開始做預(yù)訓(xùn)練的時(shí)候數(shù)據(jù)量大約十幾G，假設(shè)有一家公司財(cái)大氣粗，錢不是問題，可以用無限量數(shù)據(jù)做預(yù)訓(xùn)練，那么毫無疑問Bert效果會(huì)有大幅度的提升。但是現(xiàn)在有人做這個(gè)事嗎？沒有，因?yàn)檫@太燒錢了。從現(xiàn)有的結(jié)果來看，假設(shè)某位同學(xué)很有錢，說我想改造一下BERT，很簡(jiǎn)單，加大數(shù)據(jù)規(guī)模，然后數(shù)據(jù)的形態(tài)更豐富一些，數(shù)據(jù)質(zhì)量更高一點(diǎn)，你就做這個(gè)事，把數(shù)據(jù)堆上去，有可能做出比目前能看到BERT更好的指標(biāo)。通過增加數(shù)據(jù)繼續(xù)提升BERT效果，雖然這沒有什么技術(shù)含量，但其實(shí)是一個(gè)簡(jiǎn)單易行的解決方法。

第五，更合適的訓(xùn)練目標(biāo)和訓(xùn)練方法。這個(gè)也是相對(duì)簡(jiǎn)單的改進(jìn)方向，但是其實(shí)是特別容易見效的，目前也有一些工作。

第六，多語(yǔ)言融合。現(xiàn)在做的BERT是單語(yǔ)言，不同語(yǔ)言之間怎么在Bert體系里面融合起來，這也是目前BERT值得改進(jìn)的好方向之一。

當(dāng)然還有其它優(yōu)化方向，因?yàn)椴皇墙裉熘黝}，所以不一一細(xì)說了，接下來，和大家分析一下BERT和BERT的層級(jí)結(jié)構(gòu)。

如圖所示，這是Transformer典型的層級(jí)結(jié)構(gòu)，Transformer由若干個(gè)Block堆疊而成，作為基本構(gòu)件，每一個(gè)Block里是一個(gè)小生態(tài)系統(tǒng)，里面又涉及很多技術(shù)，其中四個(gè)最關(guān)鍵的子部分：Layer Norm、Skip Connection、自注意力和前饋神經(jīng)網(wǎng)絡(luò)。

BERT由兩階段構(gòu)成，每個(gè)階段有自己的特點(diǎn)和目標(biāo)。第一個(gè)階段是預(yù)訓(xùn)練階段，第二個(gè)階段是Fine-Tuning階段。預(yù)訓(xùn)練階段用大量無監(jiān)督的文本通過自監(jiān)督方式進(jìn)行訓(xùn)練，把文本包含的語(yǔ)言知識(shí)以參數(shù)形式編碼到Transformer中，F(xiàn)ine-Tuning一般是有監(jiān)督的，數(shù)據(jù)量比較小，在模型結(jié)構(gòu)上做分類任務(wù)以解決當(dāng)前任務(wù)。第一階段跟第二階段怎么連接起來的？在預(yù)訓(xùn)練階段Transformer學(xué)到了很多初始化的知識(shí)，第二階段就把初始化網(wǎng)絡(luò)學(xué)到的語(yǔ)言知識(shí)拿來用，F(xiàn)ine-Tuning引入新的特征解決你的問題。

所以，為什么BERT效果這么好？為什么以前的模型效果沒有BERT好？因?yàn)?，第一階段編碼了文本中大量的語(yǔ)言學(xué)知識(shí)，在Bert之前，沒有用那么多的文本數(shù)據(jù)，而且是無監(jiān)督的方式。那么我們關(guān)心的是：BERT里的Transformer到底學(xué)到了什么？比傳統(tǒng)模型多學(xué)了什么知識(shí)？這是關(guān)鍵。

應(yīng)該說，Transformer和BERT都還不十分成熟，結(jié)構(gòu)又復(fù)雜，實(shí)際應(yīng)用也很復(fù)雜，如果沒有對(duì)它們的深入了解、不知道它們的結(jié)構(gòu)及優(yōu)缺點(diǎn)，我們就很難能更好的改進(jìn)它們，以得到更好的BERT和Transformer。怎樣能加深對(duì)它們的認(rèn)識(shí)呢？這就是接下來要和大家深入探討的內(nèi)容。

第二部分：探尋方法

我們說了，Bert通過預(yù)訓(xùn)練，學(xué)到了語(yǔ)言知識(shí)，那么這些知識(shí)在哪里？就在Transformer的參數(shù)里。但是，我們看到的都是一堆參數(shù)，就是大量的數(shù)值，看不出里面的含義，于是問題轉(zhuǎn)化成了：我們?cè)趺粗蓝鄬拥腡ransformer的每層都學(xué)到了什么，有什么方法可以看出來它學(xué)到了什么？一般把這些技術(shù)叫做探尋方法，那么常用的探尋方法有哪些？

在開始講BERT的探尋方法之前，先從DNN這個(gè)著名的黑盒系統(tǒng)開始講起。大家都知道DNN效果好，但每個(gè)神經(jīng)元學(xué)到了什么，不知道；也看不到，不好理解，能看到就是一個(gè)神經(jīng)元的響應(yīng)值或大或??；神經(jīng)元之間的關(guān)系也不知道，大家不理解DNN是怎么工作的。學(xué)術(shù)界早就意識(shí)到這個(gè)問題了，自從DNN出來之后，好多人試圖尋找方法，試圖讓大家理解DNN是怎么工作的，探尋每個(gè)神經(jīng)元學(xué)了什么。特征可視化是典型的破解黑盒的方法，這個(gè)方法在圖像領(lǐng)域中很常用，但并不是通用的。今天要講的是BERT和Transformer的探尋方法。

目前有幾種典型的方法，第一是可視化（2D t-SEN），用2D圖的方式展示。如下圖所示，用Transformer的每層的特征，各自把名詞、短語(yǔ)進(jìn)行聚類，同一顏色代表同一類的短語(yǔ)，如果聚類效果好，說明這層編碼了這類知識(shí)。通過這種方法，進(jìn)而知道哪一層適合解決什么問題，編碼哪些知識(shí)，這是典型的可視化方法。

第二個(gè)方法是Attention圖。對(duì)探索Transformer所學(xué)到知識(shí)的探尋手段來說，Attention圖是非常關(guān)鍵的方法，它可以形象地觀察一個(gè)單詞和其它單詞的關(guān)系，聯(lián)系的緊密程度。如下圖所示，看一看介詞\'at\'和誰(shuí)的關(guān)系更密切？連接線越粗，表示聯(lián)系越緊密，值越大邊就畫得更粗一點(diǎn)，發(fā)現(xiàn)跟\'Auction\'更粗，證明了BERT學(xué)到了介詞和主名詞之間的關(guān)系，更重要是通過Attention圖的方式能夠知道學(xué)到了哪些知識(shí)。

第三種方法是Probing Classifier。對(duì)于Transformer某一層某個(gè)單詞的Embedding節(jié)點(diǎn)，如果想知道它學(xué)到了什么東西，怎么做？我們把Transformer結(jié)構(gòu)參數(shù)固定住，保持不變，知識(shí)已經(jīng)編碼在參數(shù)中，需要找到一種探尋方法，知道每個(gè)層次學(xué)到了什么。如下圖所示的例子很直觀，Transformer參數(shù)固定住，最高層Transformer對(duì)應(yīng)的單詞有個(gè)Embedding，表示通過各層學(xué)到的知識(shí)，怎樣知道這個(gè)Embedding學(xué)到了什么？上面加入一個(gè)小分類網(wǎng)絡(luò)，這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)很簡(jiǎn)單，我們不希望它自身學(xué)習(xí)過多的知識(shí)，只希望它利用Transformer已經(jīng)編碼好的知識(shí)去進(jìn)行詞性標(biāo)注，如果能標(biāo)注正確，表明Transformer這一層已經(jīng)編碼學(xué)到了詞性標(biāo)注相關(guān)知識(shí)，如果標(biāo)注錯(cuò)誤表明沒有編碼這個(gè)知識(shí)。利用這樣一個(gè)簡(jiǎn)單分類器來完成某個(gè)具體任務(wù)，而分類器里面的參數(shù)很少，基本沒有什么參數(shù)，所有的決策信息來自于Transformer本身學(xué)到的知識(shí)，如果任務(wù)能夠解決得很好，也就說明了Transformer中存儲(chǔ)的與這類任務(wù)相關(guān)的知識(shí)比較多。這樣就探測(cè)出了Transformer每一層到底學(xué)到了哪類知識(shí)。

還有一種改進(jìn)方法叫做Edge Probing Classifier。它和Probing Classifier的區(qū)別是什么？Probing Classifier只能判斷一個(gè)單詞對(duì)應(yīng)的Embedding節(jié)點(diǎn)學(xué)到了什么，但對(duì)于很多任務(wù)來說有其他的需求。比如如果我們需要知道一個(gè)短語(yǔ)、兩個(gè)單詞和三個(gè)單詞學(xué)到了什么，或者句中的A單詞和B單詞是什么關(guān)系，如何通過Edge Probing Classifier方式來獲知它學(xué)到了什么知識(shí)呢？如下圖所示，Transformer仍然固定參數(shù)，簡(jiǎn)單分類器的輸入變成多節(jié)點(diǎn)輸入，上面的Span可能覆蓋一個(gè)片段，如一個(gè)單詞，兩個(gè)單詞，然后構(gòu)建一個(gè)簡(jiǎn)單的分類器解決分類任務(wù)，進(jìn)而觀測(cè)預(yù)測(cè)的精準(zhǔn)性，根據(jù)預(yù)測(cè)準(zhǔn)確性，來獲知到底學(xué)到了什么知識(shí)。它和Probing Classifier的主要區(qū)別是能夠同時(shí)偵測(cè)多節(jié)點(diǎn)編碼的知識(shí)。

上面介紹的是一些常用的探測(cè)方法，有了這些探測(cè)方法，就能夠去看看Bert或者Transformer到底學(xué)到了什么知識(shí)了。如果歸納一下目前的研究結(jié)論的話，大致概述一下：BERT訓(xùn)練好之后，低層Transformer主要學(xué)習(xí)自然語(yǔ)言表層的特征，中層學(xué)習(xí)編碼句法信息，高層編碼了NLP的語(yǔ)義特征。很多實(shí)驗(yàn)都已證明這一結(jié)論。

怎么得出的這個(gè)結(jié)論？上圖的一系列任務(wù)中說明了為什么會(huì)得出這個(gè)結(jié)論。POS、成分分析、DEPS、Entities、SRL、COREF、關(guān)系分類，從上到下，越往下這個(gè)任務(wù)越需要偏向高層語(yǔ)義的知識(shí)才能解決好。POS詞性標(biāo)注是簡(jiǎn)單任務(wù)，偏向表層特征，關(guān)系分類則是純語(yǔ)義的任務(wù)，不理解語(yǔ)義便無法很好的解決任務(wù)，從上到下逐漸趨向語(yǔ)義任務(wù)。柱狀圖表示要解決這個(gè)任務(wù)，發(fā)揮作用的是Transformer的哪些層，得分越高，代表需要的層深越高。如關(guān)系分類任務(wù)的9.40和POS任務(wù)的3.39，意味著，關(guān)系分類任務(wù)更依賴于Transformer高層的貢獻(xiàn)，POS任務(wù)的信息主要從Transformer低層中獲取，從圖中可以看出，隨著層深逐步增高，任務(wù)逐步趨向語(yǔ)義任務(wù)。

如果只把Transformer分為低、中、高層，這還是有些粗糙，我們希望再深入、更細(xì)致地剖析每層的作用大小。如上圖所示，橫坐標(biāo)表示Transformer有24層，縱坐標(biāo)代表發(fā)揮作用的大小，指標(biāo)高代表這一層發(fā)揮的作用越大。從圖中可以看出，解決好詞性標(biāo)注任務(wù)，第一層、第二層、第三層、第四層貢獻(xiàn)最大，其他層貢獻(xiàn)不太大。用的是什么方式？就是上面剛剛講到的Probing Classifier方式，說明Transformer低層比較適合解決表層特征的任務(wù)，詞性信息都被編碼在這里，也說明了低層編碼了表層和句法知識(shí)。從細(xì)分圖得出的具體結(jié)論可概括得到：句法知識(shí)具備Layer局部性，對(duì)某些層依賴性大，而語(yǔ)義知識(shí)，不具備Layer局部性，知識(shí)編碼在各層中。

上面得到的結(jié)論是符合預(yù)期的，而接下來的這個(gè)結(jié)論比較有意思。如下圖中標(biāo)紅所示，Transformer高層傾向于編碼語(yǔ)義知識(shí)，低層編碼句法知識(shí)，而高層語(yǔ)義知識(shí)會(huì)對(duì)低層句法知識(shí)有反饋?zhàn)饔茫?jīng)過高層語(yǔ)義指導(dǎo)修正底層的句法特征。‘他在季后賽中抽了多倫多六支安打’，多倫多是個(gè)多義詞，可代表地名，也可以代表一個(gè)運(yùn)動(dòng)隊(duì)，如果我們把這句話輸入Transformer或BERT結(jié)構(gòu)中，到底在某一層編碼的是‘多倫多’，還是‘多倫多隊(duì)’？這是我們希望知道的。

可以通過觀察0到12層的黃藍(lán)占比來判斷每層的編碼知識(shí)，黃色表示判斷出‘多倫多’為（地名），藍(lán)色認(rèn)為是一個(gè)（隊(duì)名），從圖中我們看出，0層、1層、2層基本上不會(huì)認(rèn)為是‘多倫多隊(duì)’（隊(duì)名），判斷‘多倫多’是（地名）；而高層中‘多倫多隊(duì)’占比凸顯了，為什么如此？因?yàn)锽ert發(fā)現(xiàn)了句中的單詞Smoked（抽打），發(fā)現(xiàn)了它和單詞”多倫多”存在施動(dòng)-受動(dòng)關(guān)系后，就更傾向于判斷多倫多是個(gè)隊(duì)名，這種語(yǔ)義知識(shí)是在高層編碼的，它反過來會(huì)影響中低層的判斷，從而說明了高層語(yǔ)義知識(shí)反過來可以修正低層的句法知識(shí)。

下面我們說明Transformer三層（低層、中層、高層）到底具體編碼了哪些語(yǔ)言學(xué)知識(shí)。低層對(duì)單詞位置信息的編碼比較充分。橫坐標(biāo)表示層深，可以看到第2層的結(jié)果就已經(jīng)很好了，而第四層編碼的預(yù)測(cè)結(jié)果則下滑的非常嚴(yán)重，說明低層對(duì)單詞位置進(jìn)行編碼，高層已經(jīng)基本丟失了位置信息，無法解決位置信息任務(wù)；位置信息主要在低層來編碼學(xué)習(xí)的，高層編碼了低層單詞之間形成的結(jié)構(gòu)信息，位置信息只是低層給高層使用用于構(gòu)造單詞之間結(jié)構(gòu)關(guān)系。

此外，低層還對(duì)短語(yǔ)信息進(jìn)行編碼、對(duì)特殊符號(hào)進(jìn)行編碼。

中層是對(duì)句法信息的編碼。句法預(yù)測(cè)任務(wù)中，橫坐標(biāo)是24層的每一層，這是效果指標(biāo)。哪層對(duì)句法預(yù)測(cè)效果比較好，效果好也就意味著編碼信息更多，可以看出3到8層對(duì)句法預(yù)測(cè)比較好。

高層對(duì)語(yǔ)義信息進(jìn)行編碼。如下圖所示指帶消解任務(wù)，代詞’He‘和‘She’可以指帶什么？BERT是否學(xué)習(xí)了？從圖中可以看出指代關(guān)系已經(jīng)編碼到BERT特征中了，因而解決效果比較好。

第三部分：BERT 的預(yù)訓(xùn)練比無預(yù)訓(xùn)練過程多學(xué)了什么？

預(yù)訓(xùn)練模型用上面提到的Probing Classifier方式完成探測(cè)后，再用無預(yù)訓(xùn)練、不用初始化的模型直接學(xué)習(xí)的模式，兩者進(jìn)行實(shí)驗(yàn)對(duì)比。我們會(huì)發(fā)現(xiàn)：無預(yù)訓(xùn)練模型在句子長(zhǎng)度預(yù)測(cè)任務(wù)表現(xiàn)要好于預(yù)訓(xùn)練模型BERT，說明了預(yù)訓(xùn)練模型靠犧牲部分表層特征表達(dá)能力，獲得了更多、更豐富的復(fù)雜特征表達(dá)能力。

我們知道目前有很多不同的預(yù)訓(xùn)練模型，它們之間相比，有什么異同？Bert預(yù)訓(xùn)練模型相對(duì)其它模型多學(xué)到了什么？相對(duì)于Cove、Elmo等其它模型，Bert模型編碼了更多的句法信息，語(yǔ)義信息大致相當(dāng)。另外，BERT比GPT多學(xué)了什么東西？因?yàn)锽ERT層數(shù)更深，更有利于編碼語(yǔ)義特征。最后，相對(duì)傳統(tǒng)模型比如RNN和CNN，ELMO多學(xué)了什么東西？ELMO通過預(yù)訓(xùn)練，比CNN學(xué)到了更多、更長(zhǎng)的上下文特征。

最后我們概括一下，Bert的Transformer低層學(xué)了表層特征，中間層學(xué)了句法特征，高層學(xué)了語(yǔ)義特征，雖然目前都有相關(guān)工作在進(jìn)行，但還不夠細(xì)致，需要做更深入的探索，相信未來會(huì)有更多更好的研究出現(xiàn)。我今天的分享就到這里，謝謝大家！

以上就是關(guān)于pos機(jī)he什么意思,BERT和Transformer到底學(xué)到了什么的知識(shí)，后面我們會(huì)繼續(xù)為大家整理關(guān)于pos機(jī)he什么意思的知識(shí)，希望能夠幫助到大家！