【還也行?滾!】
【老趙,你知不知道你現在冰冷的話語正扼殺一個跨時代的造物!】
蘇飛發了一張痛心疾首.jpg。
對面直接發了一張滾.jpg。
最終,二人溝通協商數次,老趙敲定了一個方案。
老趙會用管理員許可權把所有其他賬號凍結一個月,只保留蘇飛的賬號,這樣給蘇飛的那臺伺服器的四張顯示卡就只能由蘇飛使用,也不需要擔心其他人一不小心佔用了資源導致程式崩潰,因為壓根沒其他人了。
當然,想要使用這臺伺服器的其他同學會被安排到其他伺服器去,老趙順便會幫他們把資料也一起轉移過去。
這樣一來,蘇飛用四張卡同時訓練,十幾天應該就能搞定。
老趙,還是靠譜兒,蘇飛決定之後這篇論文發表成功,一定要好好報答報答老趙。
在得到老趙的全力支援後,蘇飛也是起飛了,把訓練程式往四張顯示卡上一扔,他就完全撒手不管了。
有句話怎麼說來著,要讓你的錢比你更努力地工作?
在深度學習領域,要讓的顯示卡比你更努力地工作!
…
…
既然訓練程式的問題已經解決了,蘇飛便直接開始動筆寫論文了。
雖然訓練結果還沒出來,但蘇飛相信這個模型的效能絕對不會差,到時候結果出來了直接把資料填上去,就能直接發表了。
什麼?萬一效能很差?
這是看不起系統的靈感激發卡嗎?
狗系統雖然很狗,經常釋出一些奇奇怪怪的任務,但靈感激發卡的功效也是實打實的。
在撰寫論文題目的時候,蘇飛一字一頓地打上標題。
【注意力即所有(attention is a need)】
這種有些狂妄的論文標題很像是一些初出茅廬的小子,不知天高地厚而一時中二取的標題。
蘇飛的確是初出茅廬的小子,但他堅信,以注意力機制構建的模型單元擔得起這個論文題目。
【目前的主流模型結構都是基於複雜的迴圈神經網路或者卷積神經網路而構造的編碼器解碼器架構。如果在編碼器解碼器架構中再加一層注意力機制,那麼這個模型的效能就會變得更好。】
【但是,迄今為止從沒有人僅用注意力機制構建出一個編碼器解碼器架構的模型。本文提出一個新的模型,其捨棄主流的模型架構,單純採用注意力機制,並引入多頭注意力機制與位置向量的概念解決目前注意力機制中的兩個難點,其具體的模型構造為……】
【……基於上述的理論,此模型並不侷限於自然語言處理領域,其獨特的並行運算結構能適用於人工智慧領域的任何問題,並且大大提升訓練速度,因此,本文將該模型命名為變壓器transforer)。】<er在英文中不止是變壓器,更有變形金剛的意思,而這個模型的確就如同變形金剛一樣,非常靈活多變,能適應各種任務。
喜歡學霸從談戀愛開始請大家收藏:()學霸從談戀愛開始書更新速度全網最快。