QQ登录

只需一步,快速开始

微信登录

扫一扫,访问微社区

查看: 132|回复: 0

面经 | 面试必看:Transformer 模型是怎样实现的?(附代码实现)

[复制链接]

该用户从未签到

30

主题

30

帖子

100

积分

孩提竹马

Rank: 2

积分
100
发表于 6 天前 | 显示全部楼层 |阅读模式
作者:AI职通车

記得點擊藍字,關注我們呀~


作 者 | mantch / 著作權歸作者所有,AI 職通車獲得授權轉載,禁止二次轉載

https://www.yanxishe.com/blogDetail/14670


本文將基于Google的一篇論文€€€€《Attention Is All You Need》詳細解析 Transformer 模型,從總體結構的剖析到細層網絡的講解,從模型優缺點分析到代碼的實現等方面,在文中都會有比較細致的說明。

讀完這篇文章,以後面試中再遇Transformer 模型的相關問題,就不用慌咯~

1Transformer 是什麼?
《Attention Is All You Need》是一篇Google提出的將Attention思想發揮到極致的論文。這篇論文中提出一個全新的模型,叫 Transformer,拋棄了以往深度學習任務里面使用到的 CNN 和 RNN。目前大熱的Bert就是基于Transformer構建的,這個模型廣泛應用于NLP領域,例如機器翻譯,問答系統,文本摘要和語音識別等等方向。

2Transformer 結構  總體結構

Transformer的結構和Attention模型一樣,Transformer模型中也采用了 encoer-decoder 架構。但其結構相比于Attention更加復雜,論文中encoder層由6個encoder堆疊在一起,decoder層也一樣。

不了解Attention模型的,可以回顧之前的文章︰https://github.com/NLP-LOVE/ML-NLP/tree/master/NLP/16.6%20Attention



每一個encoder和decoder的內部結構如下圖︰




    encoder,包含兩層,一個self-attention層和一個前饋神經網絡,self-attention能幫助當前節點不僅僅只關注當前的詞,從而能獲取到上下文的語義。

    decoder也包含encoder提到的兩層網絡,但是在這兩層中間還有一層attention層,幫助當前節點獲取到當前需要關注的重點內容。


  Encoder層結構

首先,模型需要對輸入的數據進行一個embedding操作,也可以理解為類似w2c的操作,enmbedding結束之後,輸入到encoder層,self-attention處理完數據後把數據送給前饋神經網絡,前饋神經網絡的計算可以並行,得到的輸出會輸入到下一個encoder。



1.Positional Encoding

transformer模型中缺少一種解釋輸入序列中單詞順序的方法,它跟序列模型還不不一樣。為了處理這個問題,transformer給encoder層和decoder層的輸入添加了一個額外的向量Positional Encoding,維度和embedding的維度一樣,這個向量采用了一種很獨特的方法來讓模型學習到這個值,這個向量能決定當前詞的位置,或者說在一個句子中不同的詞之間的距離。這個位置向量的具體計算方法有很多種,論文中的計算方法如下︰



其中pos是指當前詞在句子中的位置,i是指向量中每個值的index,可以看出,在偶數位置,使用正弦編碼,在奇數位置,使用余弦編碼。

最後把這個Positional Encoding與embedding的值相加,作為輸入送到下一層。



2.Self-Attention

接下來我們詳細看一下self-attention,其思想和attention類似,但是self-attention是Transformer用來將其他相關單詞的“理解”轉換成我們正在處理的單詞的一種思路,我們看個例子︰

The animal didn’t cross the street because it was too tired

這里的 it 到底代表的是 animal 還是 street 呢,對于我們來說能很簡單的判斷出來,但是對于機器來說,是很難判斷的,self-attention就能夠讓機器把 it 和 animal 聯系起來,接下來我們看下詳細的處理過程。

    首先,self-attention會計算出三個新的向量,在論文中,向量的維度是512維,我們把這三個向量分別稱為Query、Key、Value,這三個向量是用embedding向量與一個矩陣相乘得到的結果,這個矩陣是隨機初始化的,維度為(64,512)注意第二個維度需要和embedding的維度一樣,其值在BP的過程中會一直進行更新,得到的這三個向量的維度是64。



    計算self-attention的分數值,該分數值決定了當我們在某個位置encode一個詞時,對輸入句子的其他部分的關注程度。這個分數值的計算方法是Query與Key做點成,以下圖為例,首先我們需要針對Thinking這個詞,計算出其他詞對于該詞的一個分數值,首先是針對于自己本身即q1€€k1,然後是針對于第二個詞即q1€€k2。



    接下來,把點成的結果除以一個常數,這里我們除以8,這個值一般是采用上文提到的矩陣的第一個維度的開方即64的開方8,當然也可以選擇其他的值,然後把得到的結果做一個softmax的計算。得到的結果即是每個詞對于當前位置的詞的相關性大小,當然,當前位置的詞相關性肯定會會很大。



    下一步就是把Value和softmax得到的值進行相乘,並相加,得到的結果即是self-attetion在當前節點的值。




在實際的應用場景,為了提高計算速度,我們采用的是矩陣的方式,直接計算出Query, Key, Value的矩陣,然後把embedding的值與三個矩陣直接相乘,把得到的新矩陣 Q 與 K 相乘,乘以一個常數,做softmax操作,最後乘上 V 矩陣。

這種通過 query 和 key 的相似性程度來確定 value 的權重分布的方法被稱為scaled dot-product attention。





3.Multi-Headed Attention

這篇論文更牛逼的地方是給self-attention加入了另外一個機制,被稱為“multi-headed” attention,該機制理解起來很簡單,就是說不僅僅只初始化一組Q、K、V的矩陣,而是初始化多組,tranformer是使用了8組,所以最後得到的結果是8個矩陣。





4.Layer normalization

在transformer中,每一個子層(self-attetion,Feed Forward Neural Network)之後都會接一個殘缺模塊,並且有一個Layer normalization。



Normalization有很多種,但是它們都有一個共同的目的,那就是把輸入轉化成均值為0方差為1的數據。我們在把數據送入激活函數之前進行normalization(歸一化),因為我們不希望輸入數據落在激活函數的飽和區。

    Batch Normalization

    BN的主要思想就是︰在每一層的每一批數據上進行歸一化。我們可能會對輸入數據進行歸一化,但是經過該網絡層的作用後,我們的數據已經不再是歸一化的了。隨著這種情況的發展,數據的偏差越來越大,我的反向傳播需要考慮到這些大的偏差,這就迫使我們只能使用較小的學習率來防止梯度消失或者梯度爆炸。BN的具體做法就是對每一小批數據,在批這個方向上做歸一化。

    Layer normalization

    它也是歸一化數據的一種方式,不過LN 是在每一個樣本上計算均值和方差,而不是BN那種在批方向計算均值和方差!公式如下︰





5.Feed Forward Neural Network

這給我們留下了一個小的挑戰,前饋神經網絡沒法輸入 8 個矩陣呀,這該怎麼辦呢?所以我們需要一種方式,把 8 個矩陣降為 1 個,首先,我們把 8 個矩陣連在一起,這樣會得到一個大的矩陣,再隨機初始化一個矩陣和這個組合好的矩陣相乘,最後得到一個最終的矩陣。



  Decoder層結構

根據上面的總體結構圖可以看出,decoder部分其實和encoder部分大同小異,剛開始也是先添加一個位置向量Positional Encoding,方法和 2.2.1 節一樣,接下來接的是masked mutil-head attetion,這里的mask也是transformer一個很關鍵的技術,下面我們會進行一一介紹。

其余的層結構與Encoder一樣,請參考Encoder層結構。

1.masked mutil-head attetion

mask 表示掩碼,它對某些值進行掩蓋,使其在參數更新時不產生效果。Transformer 模型里面涉及兩種 mask,分別是 padding mask 和 sequence mask。其中,padding mask 在所有的 scaled dot-product attention 里面都需要用到,而 sequence mask 只有在 decoder 的 self-attention 里面用到。

padding mask

什麼是 padding mask 呢?因為每個批次輸入序列長度是不一樣的也就是說,我們要對輸入序列進行對齊。具體來說,就是給在較短的序列後面填充 0。但是如果輸入的序列太長,則是截取左邊的內容,把多余的直接舍棄。因為這些填充的位置,其實是沒什麼意義的,所以我們的attention機制不應該把注意力放在這些位置上,所以我們需要進行一些處理。

具體的做法是,把這些位置的值加上一個非常大的負數(負無窮),這樣的話,經過 softmax,這些位置的概率就會接近0!

而我們的 padding mask 實際上是一個張量,每個值都是一個Boolean,值為 false 的地方就是我們要進行處理的地方。

Sequence mask

文章前面也提到,sequence mask 是為了使得 decoder 不能看見未來的信息。也就是對于一個序列,在 time_step 為 t 的時刻,我們的解碼輸出應該只能依賴于 t 時刻之前的輸出,而不能依賴 t 之後的輸出。因此我們需要想一個辦法,把 t 之後的信息給隱藏起來。

那麼具體怎麼做呢?也很簡單︰產生一個上三角矩陣,上三角的值全為0。把這個矩陣作用在每一個序列上,就可以達到我們的目的。

    對于 decoder 的 self-attention,里面使用到的 scaled dot-product attention,同時需要padding mask 和 sequence mask 作為 attn_mask,具體實現就是兩個mask相加作為attn_mask。

    其他情況,attn_mask 一律等于 padding mask。

2.Output層

當decoder層全部執行完畢後,怎麼把得到的向量映射為我們需要的詞呢,很簡單,只需要在結尾再添加一個全連接層和softmax層,假如我們的詞典是1w個詞,那最終softmax會輸入1w個詞的概率,概率值最大的對應的詞就是我們最終的結果。

  動態流程圖

編碼器通過處理輸入序列開啟工作。頂端編碼器的輸出之後會變轉化為一個包含向量K(鍵向量)和V(值向量)的注意力向量集 ,這是並行化操作。這些向量將被每個解碼器用于自身的“編碼-解碼注意力層”,而這些層可以幫助解碼器關注輸入序列哪些位置合適︰



在完成編碼階段後,則開始解碼階段。解碼階段的每個步驟都會輸出一個輸出序列(在這個例子里,是英語翻譯的句子)的元素。

接下來的步驟重復了這個過程,直到到達一個特殊的終止符號,它表示transformer的解碼器已經完成了它的輸出。每個步驟的輸出在下一個時間步被提供給底端解碼器,並且就像編碼器之前做的那樣,這些解碼器會輸出它們的解碼結果 。



3Transformer為什麼需要進行Multi-head Attention
原論文中說到進行Multi-head Attention的原因是將模型分為多個頭,形成多個子空間,可以讓模型去關注不同方面的信息,最後再將各個方面的信息綜合起來。其實直觀上也可以想到,如果自己設計這樣的一個模型,必然也不會只做一次attention,多次attention綜合的結果至少能夠起到增強模型的作用,也可以類比CNN中同時使用多個卷積核的作用,直觀上講,多頭的注意力有助于網絡捕捉到更豐富的特征/信息。

4Transformer相比于RNN/LSTM,有什麼優勢?為什麼?

1.RNN系列的模型,並行計算能力很差。RNN並行計算的問題就出在這里,因為 T 時刻的計算依賴 T-1 時刻的隱層計算結果,而 T-1 時刻的計算依賴 T-2 時刻的隱層計算結果,如此下去就形成了所謂的序列依賴關系。

2.Transformer的特征抽取能力比RNN系列的模型要好。

具體實驗對比可以參考︰

放棄幻想,全面擁抱Transformer︰自然語言處理三大特征抽取器(CNN/RNN/TF)比較︰https://zhuanlan.zhihu.com/p/54743941

但是值得注意的是,並不是說Transformer就能夠完全替代RNN系列的模型了,任何模型都有其適用範圍,同樣的,RNN系列模型在很多任務上還是首選,熟悉各種模型的內部原理,知其然且知其所以然,才能遇到新任務時,快速分析這時候該用什麼樣的模型,該怎麼做好。

5為什麼說Transformer可以代替seq2seq?

seq2seq缺點︰這里用代替這個詞略顯不妥當,seq2seq雖已老,但始終還是有其用武之地,seq2seq最大的問題在于將Encoder端的所有信息壓縮到一個固定長度的向量中,並將其作為Decoder端首個隱藏狀態的輸入,來預測Decoder端第一個單詞(token)的隱藏狀態。在輸入序列比較長的時候,這樣做顯然會損失Encoder端的很多信息,而且這樣一股腦的把該固定向量送入Decoder端,Decoder端不能夠關注到其想要關注的信息。

Transformer優點︰transformer不但對seq2seq模型這兩點缺點有了實質性的改進(多頭交互式attention模塊),而且還引入了self-attention模塊,讓源序列和目標序列首先“自關聯”起來,這樣的話,源序列和目標序列自身的embedding表示所蘊含的信息更加豐富,而且後續的FFN層也增強了模型的表達能力,並且Transformer並行計算的能力是遠遠超過seq2seq系列的模型,因此我認為這是transformer優于seq2seq模型的地方。

6代碼實現

地址︰https://github.com/Kyubyong/transformer

代碼解讀︰Transformer解析與tensorflow代碼解讀

https://www.cnblogs.com/zhouxiaosong/p/11032431.html

作者GitHub︰https://github.com/NLP-LOVE/ML-NLP



€€往期精彩回顧€€面試官如何判斷面試者的機器學習水平?面經 | 拿到 Google offer,我做了哪些努力?
我是如何拿到字節跳動算法崗數據挖掘offer的

看面經,拿offer!為助力學生和開發者們找到心儀的工作,AI 研習社將陸續放出面試經驗貼供大家參考。

另外,如果你是有著豐富面試經驗的學生、開發者,或是歷經千帆終成大咖的技術管理者,歡迎來這里分享你的經驗,我們一起交流,共同進步!

有想法的開發者,歡迎添加管理員妹子微信(ID︰ymj7777777),記得備注「面經」哦~



我們希望天下學AI者都有用武之地!

AI職通車還在成長中,期待你的加入~



點擊 閱讀原文,查看更多 AI 崗位詳情。
               
原文地址:AI职通车

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

联系我们
offer@zhaoffer.com 周一至周日:09:00 - 21:00
部分信息来源于网络,如有侵权请联系删除

招我求职是业内领先的大学生职业发展咨询机构,我们致力于通过一流的行业HR授课、严谨而科学的课程设计、强大而丰富的信息资源,为学生提供匹配个人职业发展需求的一站式解决方案,帮助拥有梦想的学生走出完美职业生涯的第一步。

技术支持: 阿里云ECS  2019 © 招我信息科技

Archiver|手机版|小黑屋|2019 © 招我信息科技 ( 皖ICP备17020312号-1 )

GMT+8, 2019-10-15 04:43 , Processed in 0.215735 second(s), 21 queries .

快速回复 返回顶部 返回列表