




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
深度學習基礎知識第1部分:深度學習介紹NVIDIA深度學習學院(DLI)面向開發者、數據科學家和研究人員權威機構和專家強強聯合打造專業培訓運用前沿技術的端到端、多行業應用開發課程真實經驗分享,獲取現實可用的專業知識完全配置的GPU實時開發環境由具有學科專業知識的DLI認證講師授課NVIDIA全球開發者培訓證書查看課程/dli人工智能、加速計算和加速數據科學實戰培訓要查看課堂筆記,請全屏顯示并單擊“notes”(筆記)按鈕歡迎大家!本課程的目標助您快速入門并獨立解決問題為您能夠立即開始處理深度學習項目構建基礎本課程不包含深度學習領域的全部內容,但會讓您獲得很好的起步優勢為您繼續閱讀相關文章、教程或進一步學習奠定基礎課程議題第1部分:深度學習簡介第2部分:神經網絡是如何訓練的第3部分:卷積神經網絡第4部分:數據增強與模型部署第5部分:預訓練的模型第6部分:更高級的模型結構課程議題–第1部分人工智能(AI)的歷史深度學習的進化深度學習是如何令世界改觀的本課程概覽第一個練習愉快地學習!人類與機器學習對比放松性警覺人類機器休息和消化訓練戰斗或逃跑預測我們開始吧AI的歷史人工智能的開端計算機的部分用途是
完成人工任務早期階段,
通用智能看起來有可能實現事實證明,這比預期要難早期神經網絡受到生物學啟發構建于20世紀50年代被馮·諾伊曼結構超越專家系統高度復雜由數百位工程師編程對許多規則進行嚴格編程專家系統–局限性這三幅圖像是什么?兒童如何學習?讓他們接觸大量數據向他們提供“正確答案”他們將自己挑選重要的模式深度學習的革命數據網絡需要大量信息進行學習數字時代和互聯網提供了這些
數據計算能力需要找到一種方法,能讓我們的人工“大腦”在實際時間內觀察大量數據GPU的重要性一個神經網絡一張渲染的圖像什么是深度學習?深度學習徹底顛覆了傳統的編程方法傳統編程構建分類器定義一組
分類規則1將這些規則編入計算機2向其提供示例,以便程序使用規則進行分類3機器學習構建分類器向模型展示示例
以及有關如何
分類的答案1模型進行猜測,
而我們會告訴它
正確與否2訓練過程中,
模型學習如何正確進行分類。模型
自主學習規則3這是一個根本性的轉變何時選擇深度學習如果規則清晰易懂,通常只對其進行
編程即可如果規則微妙
復雜且難以辨別,則使用深度學習經典編程深度學習深度學習與其他AI對比網絡具有深度和復雜性多達數十億參數(并且仍在增長)模型中包含許多層對學習復雜規則很重要深度學習正在如何令世界改觀計算機視覺機器人技術
和制造業目標檢測自動駕駛汽車自然語言處理實時翻譯語音識別虛擬助理推薦系統內容策劃定向廣告購物建議強化學習ALPHAGO戰勝
圍棋世界冠軍AI機器人戰勝職業電子游戲玩家股票交易機器人課程概述實戰練習熟悉和適應深度學習的流程接觸不同的模型和數據類型開始著手處理自己的項目課程結構深度學習“HelloWorld”程序訓練更復雜的模型用來提升性能的新架構和新技術預訓練的模型遷移學習課程所用平臺GPU驅動的云服務器JupyterLab平臺用于交互式編碼的JupyterNotebook課程所用軟件主要的深度學習平臺:TensorFlow和Keras(Google)Pytorch(Facebook)MXNet(AWS)我們將使用TensorFlow和Keras建議大家在深入學習的過程中也接觸其他平臺第一項練習:
對手寫體數字進行分類認識神經網絡過去很重要且計算機又難以處理的任務訓練網絡對手寫體數字
作出正確分類接觸示例,并嘗試找出其運作規則嘗試像神經網絡
那樣學習讓我們開始吧!學習更多DLI課程,請訪問/DLI深度學習基礎知識第2部分:如何訓練神經網絡課程議題第1部分:深度學習簡介第2部分:神經網絡是如何訓練的第3部分:卷積神經網絡第4部分:數據增強與模型部署第5部分:預訓練的模型第6部分:更高級的模型結構議題–第2部分回顧一個簡單的模型從神經元到網絡激勵函數過擬合從神經元到分類練習回顧剛剛發生了什么?加載數據并對數據進行了可視化對數據進行了編輯(重構并進行歸一化以供分類)創建了模型編譯了模型使用數據訓練了模型數據準備以數組形式輸入2828[0,0,0,24,75,184,185,78,32,55,0,0,0…]數據準備目標轉換成類別0[1,0,0,0,0,0,0,0,0,0]1[0,1,0,0,0,0,0,0,0,0]2[0,0,1,0,0,0,0,0,0,0]3[0,0,0,1,0,0,0,0,0,0]...未訓練的模型[0,0,…,0]………………(784,)(512,)(512,)(10,)層大小更簡單的模型更簡單的模型xy1235
m?x更簡單的模型
xy1235
m?x更簡單的模型從隨機值開始
xy134253
m?x
更簡單的模型
xy13412534MSE=2.5RMSE=1.6更簡單的模型
xy13412534MSE=2.5RMSE=1.6損失曲線160MSEMSE損失曲線當前位置目標160MSE
損失曲線先前位置目標160當前位置MSE
損失曲線目標160當前位置MSE
損失曲線160目標160梯度哪個方向損失減少最多
移動的距離訓練周期使用完整數據集進行的一次
模型更新批量完整數據集的樣本步對權重參數的一次更新MSE損失曲線目標160MSE梯度哪個方向損失減少最多
移動的距離訓練周期使用完整數據集進行的一次
模型更新批量完整數據集的樣本步對權重參數的一次更新優化器損失–動量優化器AdamAdagradRMSPropSGD從神經元到網絡構建網絡擴充到更多的輸入
w2w1構建網絡擴充到更多的輸入能夠串聯神經元
w6w5w1w2x1x2w3w4構建網絡擴充到更多的輸入能夠串聯神經元如果所有回歸均為線性
回歸,輸出也將為線性
回歸
w6w5w1w2x1x2w3w4激勵函數激勵函數LinearSigmoidReLU
激勵函數LinearReLUSigmoid激勵函數
w4w3w1w2x1過擬合過擬合為何不構建一個超大的神經網絡呢?過擬合哪條趨勢線更好?MSE=.0056MSE=.0113過擬合哪條趨勢線更好?MSE=.0172MSE=.0062訓練數據和驗證數據對比避免記憶數據訓練數據模型學習所用的核心數據集驗證數據新數據,用于驗證模型是否已能真正作出理解(可進行泛化)過擬合模型在訓練數據上表現出色,但對于驗證數據表現不佳(表明模型只是在記憶數據)理想情況下,模型在這兩個數據集上表現出的準確性和
損失應該相似從回歸到分類MNIST模型[0,0,…,0]………………(784,)(512,)(512,)(10,)層大小MNIST模型[0,0,…,0]………………(784,)(512,)(512,)(10,)ReLUSigmoid層大小ReLUMNIST模型[0,0,…,0]………………(784,)(512,)(512,)(10,)ReLUSoftmax層大小ReLU將RMSE用于概率?將RMSE用于概率?多分類交叉熵多分類交叉熵
多分類交叉熵融會貫通下一個練習美國手語字母表開始吧!附錄:梯度下降幫助計算機欺騙微積分從誤差中學習
損失曲線當前位置目標160損失曲線目標160
損失曲線目標160
損失曲線目標160
損失曲線目標160
損失曲線目標160
/DLI深度學習基礎知識第3部分:卷積神經網絡課程議題第1部分:深度學習簡介第2部分:神經網絡是如何訓練的第3部分:卷積神經網絡第4部分:數據增強與模型部署第5部分:預訓練的模型第6部分:更高級的模型結構課程議題–第3部分內核與卷積內核與神經網模型中的其它層練習回顧我們對一個密集神經網絡模型進行了訓練訓練準確性高驗證準確性低過擬合證據內核和卷積調暗銳化調亮模糊原始圖像內核和卷積調暗銳化調亮模糊原始圖像內核和卷積00001.5000000000.50000.06.13.06.13.25.13.06.13.060-10-15-10-10內核和卷積101101010010011110011110101101110011.06.13.06.13.25.13.06.13.06原始圖像增加亮度的內核
卷積后的圖像內核和卷積101101010010011110011110101101110011.06.13.06.13.25.13.06.13.06原始圖像增加亮度的內核
卷積后的圖像內核和卷積101101010010011110011110101101110011.06.13.06.13.25.13.06.13.06原始圖像增加亮度的內核
卷積后的圖像.060.060.2500.13.06相乘內核和卷積101101010010011110011110101101110011.06.13.06.13.25.13.06.13.06原始圖像增加亮度的內核
.56卷積后的圖像.060.060.2500.13.06求和內核和卷積.06.13.06.13.25.13.06.13.06原始圖像增加亮度的內核
卷積后的圖像.56.571011010100100111100111101011011100110.13.06.1300.06.13.06內核和卷積101101010010011110011110101101110011.06.13.06.13.25.13.06.13.06原始圖像增加亮度的內核
.56.57.57.56.7.82.82.7.69.95.95.69.64.69.69.64卷積后的圖像步長101101010010011110步長為1.56.57101101010010011110步長為2101101010010011110步長為3.56.57.57.56.56.56填充原始圖像0000000001011010001001000011110000111100010110100110011000000000補零101101010010011110011110101101110011填充原始圖像1101101111011011001001000011110000111100110110111110011111100111相同填充101101010010011110011110101101110011內核和神經網絡內核和神經網絡內核w1w2w3w4w5w6w7w8w9內核和神經網絡內核神經元
w6w5w1w2x1x2w3w4w1w2w3w4w5w6w7w8w9內核和神經網絡(28,28,1)輸入圖像(3,3,1,2)內核(28,28,2)堆疊圖像(3,3,2,2)內核(28,28,2)堆疊圖像(1568)展平后的
圖像向量…………(10)輸出預測(512)密集層(512)密集層查找邊緣原始圖像垂直邊緣水平邊緣10-120-210-1000010000121000-1-2-1神經網絡感知卷積層輸入卷積卷積卷積層密集層輸出層密集層紋理邊緣物體神經網絡感知模型中的其他層最大池化11025615367128988431015505523949232561532355Dropout丟棄率
=0丟棄率
=.2丟棄率
=.4完整架構卷積層輸入卷積卷積層密集層輸出層密集層最大池化Dropout最大池化最大池化開始吧!/DLI深度學習基礎知識第4部分:數據增強與模型部署課程議題第1部分:深度學習簡介第2部分:神經網絡是如何訓練的第3部分:卷積神經網絡第4部分:數據增強與模型部署第5部分:預訓練的模型第6部分:更高級的模型結構課程議題–第4部分數據增強模型部署練習回顧CNN提高了驗證準確性訓練準確性仍高于驗證準確性分析練習回顧CNN提高了驗證準確性訓練準確性仍高于驗證準確性干凈的數據可提供更優示例數據集多樣性有助模型進行泛化分析解決方案數據增強數據增強圖像翻轉水平翻轉垂直翻轉旋轉0?45?90?135?180?225?270?315?縮放寬度和高度偏移單應性變換(homography)亮度通道偏移模型部署模型部署(28,28,1)圖像輸入(3,3,1,2)內核(28,28,2)堆疊圖像(3,3,2,2)內核(28,28,2)堆疊圖像(1568)展平后的圖像向量…………(10)輸出預測(512)密集(512)密集模型部署訓練批量
輸入卷積…最大池化模型部署調整大小灰度“批量”(220,155,1)(287,433,3)(220,155,3)(1,220,155,1)我們來試一試!/DLI深度學習基礎知識第5部分:預訓練的模型課程議題第1部分:深度學習簡介第2部分:神經網絡是如何訓練的第3部分:卷積神經網絡第4部分:數據增強與模型部署第5部分:預訓練的模型第6部分:更高級的模型結構課程議題–第5部分復習預訓練的模型遷移學習復習迄今所學的概念復習迄今所學的概念學習率層數每層神經元數激勵函數Dropout數據預訓練模型預訓練模型PYTORCH
HUB預訓練模型IM
GENET下一個挑戰自動狗門遷移學習后續挑戰總統的自動狗門遷移學習遷移學習(28,28,1)圖像輸入(3,3,1,2)內核(28,28,2)堆疊圖像(3,3,2,2)內核(28,28,2)堆疊圖像(1568)平面圖像向量…………(10)輸出預測(512)密集(512)密集遷移學習卷積輸入卷積卷積密集輸出密集最大池化Dropout最大池化最大池化更一般化的特征更具體化的特征遷移學習凍結模型?遷移學習我們開始吧!/DLI深度學習基礎知識第6部分:高級架構課程議題第1部分:深度學習簡介第2部分:神經網絡是如何訓練的第3部分:卷積神經網絡第4部分:數據增強與模型部署第5部分:預訓練的模型第6部分:更高級的模型結構課程議題–第6部分繼續學習自然語言處理循環神經網絡其它網絡結構結束語繼續學習AI領域計算機視覺光學自然語言處理語言學強化學習博弈論心理學異常檢測安全醫學AI領域計算機視覺視光學自然語言處理語言學強化學習博弈論心理學異常檢測安全醫學AI領域計算機視覺視光學自然語言處理語言學強化學習博弈論心理學異常檢測安全醫學自然語言處理字典AAnAndAtAteBarkBarkedCatCatsDogDogsEat“Adogbarkedatacat.”[1,10,7,4,1,8]將單詞轉換為數字將單詞轉換為數字輸入輸出字典AAnAndAtAteBarkBarkedCatCatsDogDogsEat將單詞轉換為數字50%0%35%10%5%0%0%0%0%0%0%0%000000000100輸入輸出字典AAnAndAtAteBarkBarkedCatCatsDogDogsEat將單詞轉換為數字馴養野生大型小型小貓(-.75,-.8)美洲駝(-.9,.1)隼(.15,-.4)企鵝(.85,-.65)長頸鹿(.9,.9)更大的字典AAnAndAtAteBarkBarkedCatCatsDogDogsEatEatenAAnAndAtAteBarkBarkedCatCatsDogDogsEatEatenAAnAndAtAteBarkBarkedCatCatsDogDogsEatEatenAAnAndAtAteBarkBarkedCatCatsDogDogsEatEatenAAnAndAtAteBarkBarkedCatCatsDogDogsEatEatenAAnAndAtAteBarkBarkedCatCatsDogDogsEatEaten…………將單詞轉換為數字BarkedBarkAteAndAtAnACatCatsDogDogsEatBarkedBarkAteAndAtAnACatCatsDogDogsEat輸入輸出嵌入層字典AAnAndAtAteBarkBarkedCatCatsDogDogsEat循環神經網絡字典CatsDogsMeowSayWoof循環神經網絡“Catssay___.”“Dogssay___.”字典CatsDogsMeowSayWoof循環神經網絡輸入輸出嵌入層RNN“Catssay___.”“Dogssay___.”CatsDogsMeowSayWoofCatsDogsMeowSayWoof字典CatsDogsMeowSayWoof循環神經網絡輸入輸出嵌入層RNN“Catssay___.”“Dogssay___.”100000%0%50%50%0%000字典CatsDogsMeowSayWoof循環神經網絡輸入輸出嵌入層RNN“Catssay___.”“Dogssay___.”100000%0%50%50%0%.1-.5.6000字典CatsDogsMeowSayWoof循環神經網絡輸入輸出嵌入層RNN“Catssay___.”“Dogssay___.”10000.1-.5.6000字典CatsDogsMeowSayWoof循環神經網絡輸入輸出嵌入層RNN“Catssay___.”“Dogssay___.”00010.1-.5.6字典CatsDogsMeowSayWoof循環神經網絡輸入輸出嵌入層RNN“Catssay___.”“Dogssay___.”0%0%100%0%0%.1-.5.6-.3.2.500010循環神經網絡RNN輸入輸出LSTM輸入輸出其他架構自編碼器輸入輸出自編碼器輸入輸出自編碼器-.3.6-.3.6編碼器解碼器生成式對抗網絡(GAN)判別器生成器真實圖像虛假圖像預測真實虛假噪音強化學習智能體(Agent)環境思維實驗和結束語模仿火箭科學現在開始做最后一個練習!學習更多DLI課程,請訪問/DLI構建基于Transformer的自然語言處理應用(第一部分)NVIDIA深度學習培訓中心(DLI)/dli自然語言處理中的機器學習Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發第一部分:NLP中的機器學習講座:NLP的背景和DNN在產生Transformer架構中的作用實驗:使用Transformer架構實現機器翻譯第二部分:自監督、BERT及其他講座:討論自監督的語言模型如何從基本的Transformer升遷到BERT和更大的模型實驗:使用基于BERT的語言模型構建文本分類任務
和命名實體識別任務第三部分:生產部署講座:討論生產部署中的注意事項和NVIDIATriton推理服務器實驗:動手將問答任務部署到NVIDIATriton
服務器上完整的課程議程Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發第一部分:NLP中的機器學習課程什么是NLP?問題的形式化文本表征降維嵌入RNN“您只需要注意力”實驗Transformer架構BERT模型預訓練BERTCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發NLP是很多應用的基礎Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發自然語言
處理一般問答翻譯摘要生成自動對話
生成意圖檢測自動完成詞義代碼生成常識推理自動寫入還有更多的……NLP任務情感分析Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發當前支持的功能一覽Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發大型NLP模型可支持:面向問答的多輪信息檢索功能Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發第一部分:NLP中的機器學習課程什么是NLP?問題的形式化文本表征降維嵌入RNN“您只需集中注意力”實驗Transformer架構BERT模型預訓練BERTCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發對問題進行形式化Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發機器學習在文本中發現所討論的結構機器學習算法文本Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發機器學習在文本中發現所討論的結構機器學習算法文本?Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發機器學習設計決策機器學習算法文本文本表示文本預處理???重新加權降維向量對比???問題形成?Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發機器學習所有線性組合均可行機器學習算法文本文本表示文本預處理???重新加權降維向量對比???問題形成?GloVeWord2VecCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發機器學習本課中機器學習算法文本文本表示文本預處理重新加權降維向量對比問題形式化的部分詞的表征部分實現方法的部分Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發第一部分:NLP中的機器學習課程什么是NLP?問題的形式化文本表征降維嵌入RNN“您只需集中注意力”實驗Transformer架構BERT模型預訓練BERTCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發文本表征詞袋/ngram-每個詞/ngram的特征
thecatsatonthemat可通過多種方式選擇值:二進制、計數和TF-IDF詞袋catsatonthematquickly111210…|字典|Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發詞袋主要挑戰稀疏輸入(獨熱碼)無語義泛化
dog:10000…0
cat:00100…0………第1個詞第n個詞p>>n(過擬合!)需要大量數據,準確性低第1個詞第n個詞Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發分布式詞表征Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發分布式假設直覺“您可以從旁邊的詞判斷出某個詞的意思”Firth1957“詞的完整含義始終與上下文相關,脫離上下文去研究詞的含義純屬無稽之談。”Firth1957“詞的含義取決于該詞在語言中的用法”Wittgenstein1953“分布式陳述可涵蓋某種語言的全部內容,且無需其他類型信息的支持”Harris1954Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發共現模式隱含信息Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發共現模式在何處找到它?可能的關系:詞與文檔(十分稀疏、寬泛)詞與詞(十分密集、緊湊)詞與用戶或人員詞與用戶行為詞與產品詞與自定義功能(例如電影排名)不僅是矩陣:詞、用戶與產品Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發第一部分:NLP中的機器學習課程什么是NLP?問題的形式化文本表征降維嵌入RNN“您只需集中注意力”實驗Transformer架構BERT模型預訓練BERTCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發降維理論依據需要緊湊且計算效率高的表征以更穩定的距離概念揭示了我們的分布式表征所捕獲的信息Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發LSA/LSICopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發LSA/LSI潛在語義分析/潛在語義索引?Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發LLSA/LSI截斷的SVDDumais,SusanT.,etal."Usinglatentsemanticanalysistoimproveaccesstotextualinformation."
ProceedingsoftheSIGCHIconferenceonHumanfactorsincomputingsystems.1988.術語x文檔Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發LSA/LSI截斷的SVDK最大奇異值術語x文檔Dumais,SusanT.,etal."Usinglatentsemanticanalysistoimproveaccesstotextualinformation."
ProceedingsoftheSIGCHIconferenceonHumanfactorsincomputingsystems.1988.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發LSA/LSI截斷的SVDK最大奇異值潛在語義空間術語x文檔Dumais,SusanT.,etal."Usinglatentsemanticanalysistoimproveaccesstotextualinformation."
ProceedingsoftheSIGCHIconferenceonHumanfactorsincomputingsystems.1988.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發LSA/LSI相似的文檔更接近Landauer,ThomasK.,DarrellLaham,andMarciaDerr."Fromparagraphtograph:Latentsemanticanalysisforinformationvisualization."
ProceedingsoftheNationalAcademyofSciences
101.suppl1(2004):5214-5219.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發LSA/LSI同樣于1988年發布Dumais,SusanT.,etal."Usinglatentsemanticanalysistoimproveaccesstotextualinformation."
ProceedingsoftheSIGCHIconferenceonHumanfactorsincomputingsystems.1988.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發我們是否取得了更大的進展?Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發截止2010年的狀況也是也不是Turian,Joseph,LevRatinov,andYoshuaBengio."Wordrepresentations:asimpleandgeneralmethodforsemi-supervisedlearning."
Proceedingsofthe48thannualmeetingoftheassociationforcomputationallinguistics.2010.分布式表征LSA/LSIpLSALDAHALICA隨機索引…基于集群的表征布朗集群HMM-LDA配備HMM的CRF組塊分析器…分布式表征Collobert和Weston嵌入HLBL嵌入…不清楚是否能將無監督式方法(即嵌入)與監督式模型相結合機器學習算法無監督式嵌入文本Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發第一部分:NLP中的機器學習課程什么是NLP?問題的形式化文本表征降維嵌入RNN“您只需集中注意力”實驗Transformer架構BERT模型預訓練BERTCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發為何不用神經網絡做同樣的事情?Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發截止2010年的狀況計算能力不足Turian,Joseph,LevRatinov,andYoshuaBengio."Wordrepresentations:asimpleandgeneralmethodforsemi-supervisedlearning."
Proceedingsofthe48thannualmeetingoftheassociationforcomputationallinguistics.2010.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發Word2VecCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發Word2VecMikolov等人,2013(在Google任職期間)線性模型(快速訓練)無監督方式中訓練嵌入的兩種模型:連續詞袋(CBOW)跳字catEPADthesatonEEEΣ獨熱(|V|)D維D維獨熱(|V|)獨熱(|V|)D維D維獨熱(|V|)catEPADcatEthecatEsatcatEonCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發GloVeCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發GloVe為各個詞獲得表示向量,使它們之間的點積與它們共同出現的概率成比例目標Pennington,J.,Socher,R.,&Manning,C.D.(2014,October).Glove:Globalvectorsforwordrepresentation.In
Proceedingsofthe2014conferenceonempiricalmethodsinnaturallanguageprocessing(EMNLP)
(pp.1532-1543).Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發GloVe目標Pennington,J.,Socher,R.,&Manning,C.D.(2014,October).Glove:Globalvectorsforwordrepresentation.In
Proceedingsofthe2014conferenceonempiricalmethodsinnaturallanguageprocessing(EMNLP)
(pp.1532-1543).Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發GloVe屬性Pennington,J.,Socher,R.,&Manning,C.D.(2014,October).Glove:Globalvectorsforwordrepresentation.In
Proceedingsofthe2014conferenceonempiricalmethodsinnaturallanguageprocessing(EMNLP)
(pp.1532-1543).比較級-最高級男人-女人Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發GloVe不久之前Pennington,J.,Socher,R.,&Manning,C.D.(2014,October).Glove:Globalvectorsforwordrepresentation.In
Proceedingsofthe2014conferenceonempiricalmethodsinnaturallanguageprocessing(EMNLP)
(pp.1532-1543).Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發使用嵌入向量Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發NLP的方法無監督式特征表征+機器學習模型機器學習算法文本文本表示文本預處理重新加權降維向量對比問題的形式化多種詞的表征方式多種算法Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發NLP的方法要選擇的ML模型機器學習算法文本文本表示文本預處理重新加權降維向量對比?多種詞的表征方式多種算法問題的形式化Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發傳統方法Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發傳統方法大量工具可供選用Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發如何實施特征工程呢?Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發深度表征學習Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發深度表征學習超越分布式假設Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發第一部分:NLP中的機器學習課程什么是NLP?問題的形式化文本表征降維嵌入RNN“您只需集中注意力”實驗Transformer架構BERT模型預訓練BERTCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發時間循環神經網絡xt-1xyyt-1xtytxt+1yt+1xt+2yt+2按時間展開解答st-1stst+1st+2基本原則Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發長短期記憶(LSTM)單元解決穩定性問題Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發CNNCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發卷積神經網絡基本原則Severyn,Aliaksei,andAlessandroMoschitti."Unitn:Trainingdeepconvolutionalneuralnetworkfortwittersentimentclassification."
Proceedingsofthe9thinternationalworkshoponsemanticevaluation(SemEval2015).2015.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發注意力機制Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發對長序列的效果如何?SQuAD所展示的挑戰注意機制對答題成績的影響Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發對長序列的效果如何?挑戰Bahdanau,D.,Cho,K.,&Bengio,Y.(2014).Neuralmachinetranslationbyjointlylearningtoalignandtranslate.
arXivpreprintarXiv:1409.0473.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發注意力機制Bahdanau,D.,Cho,K.,&Bengio,Y.(2014).Neuralmachinetranslationbyjointlylearningtoalignandtranslate.
arXivpreprintarXiv:1409.0473.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發注意力機制Bahdanau,D.,Cho,K.,&Bengio,Y.(2014).Neuralmachinetranslationbyjointlylearningtoalignandtranslate.
arXivpreprintarXiv:1409.0473.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發注意力示例Wu,Y.,Schuster,M.,Chen,Z.,Le,Q.V.,Norouzi,M.,Macherey,W.,...&Klingner,J.(2016).Google'sneuralmachinetranslationsystem:Bridgingthegapbetweenhumanandmachinetranslation.
arXivpreprintarXiv:1609.08144.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發注意力示例Gehring,J.,Auli,M.,Grangier,D.,Yarats,D.,&Dauphin,Y.N.(2017,July).Convolutionalsequencetosequencelearning.In
Internationalconferenceonmachinelearning
(pp.1243-1252).PMLR.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發第一部分:NLP中的機器學習課程什么是NLP?問題的形式化文本表征降維嵌入RNN“您只需要注意力”實驗Transformer架構BERT模型預訓練BERTCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發您只需要注意力設計Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.(2017).Attentionisallyouneed.In
Advancesinneuralinformationprocessingsystems
(pp.5998-6008).Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發您只需要注意力設計Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.(2017).Attentionisallyouneed.In
Advancesinneuralinformationprocessingsystems
(pp.5998-6008).Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發這本身是一項突破嗎?Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發您只需要注意力本身并不是突破點Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.(2017).Attentionisallyouneed.In
Advancesinneuralinformationprocessingsystems
(pp.5998-6008).Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發您只需要注意力但…Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.(2017).Attentionisallyouneed.In
Advancesinneuralinformationprocessingsystems
(pp.5998-6008).“……與基于循環層或卷積層的架構相比,Transformer的訓練速度明顯更快。”Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發神經網絡的嵌入Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發特征復用機會Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發復用NLP嵌入向量十分困難Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發半監督式序列學習更復雜的表征Dai,A.M.,&Le,Q.V.(2015).Semi-supervisedsequencelearning.In
Advancesinneuralinformationprocessingsystems
(pp.3079-3087).Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發半監督式序列學習更復雜的表征Dai,A.M.,&Le,Q.V.(2015).Semi-supervisedsequencelearning.In
Advancesinneuralinformationprocessingsystems
(pp.3079-3087).Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發半監督式序列學習更復雜的表征Dai,A.M.,&Le,Q.V.(2015).Semi-supervisedsequencelearning.In
Advancesinneuralinformationprocessingsystems
(pp.3079-3087).Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發ELMo語言模型的嵌入向量Peters,M.E.,Neumann,M.,Iyyer,M.,Gardner,M.,Clark,C.,Lee,K.,&Zettlemoyer,L.(2018).Deepcontextualizedwordrepresentations.arXivpreprintarXiv:1802.05365.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發ELMo語言模型的嵌入向量Peters,M.E.,Neumann,M.,Iyyer,M.,Gardner,M.,Clark,C.,Lee,K.,&Zettlemoyer,L.(2018).Deepcontextualizedwordrepresentations.arXivpreprintarXiv:1802.05365.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發ULM-Fit微調通用語言模型以用于文本分類Howard,J.,&Ruder,S.(2018).Universallanguagemodelfine-tuningfortextclassification.arXivpreprintarXiv:1801.06146.Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發NLP中的遷移學習用起來并不簡單,而且也不通用Howard,J.,&Ruder,S.(2018).Universallanguagemodelfine-tuningfortextclassification.arXivpreprintarXiv:1801.06146.Peters,M.E.,Neumann,M.,Iyyer,M.,Gardner,M.,Clark,C.,Lee,K.,&Zettlemoyer,L.(2018).Deepcontextualizedwordrepresentations.arXivpreprintarXiv:1802.05365.1957198820102013/2014年2018分布式假設LSA/LSI無監督式嵌入向量的使用NN的成功推出遷移學習的首批成功案例Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發這為全新的NLP模型奠定了基礎
(將會在下節課中討論)Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發實驗Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發您只需要注意力深入了解Transformer設計Vaswani,A.,Shazeer,N.,Parmar,N.,Uszkoreit,J.,Jones,L.,Gomez,A.N.,...&Polosukhin,I.(2017).Attentionisallyouneed.In
Advancesinneuralinformationprocessingsystems
(pp.5998-6008).Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發Bert277Bert與Transformer和預訓練的關聯性Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發下節課中……Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發自監督、BERT及模型為什么模型開始正常工作?未來將何去何從??Copyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發第一部分:NLP中的機器學習課程什么是NLP?問題的形式化文本表征降維嵌入RNN“您只需集中注意力”實驗Transformer架構BERT模型預訓練BERTCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發學習更多DLI課程訪問/dliCopyright?2022NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發構建基于Transformer的自然語言處理應用(第二部分)NVIDIA深度學習培訓中心(DLI)/dli自我監督、BERT及其他Copyright?2023NVIDIACorporation.本材料是
NVIDIA
的專有信息,未經
NVIDIA
授權不得分發第一部分:NLP中的機器學習講座:NLP的背景和DNN在產生Transformer架構中的作用實驗:使用Transformer架構實現機器翻譯第二部分:自監督、BERT及其他講座:討論自監督的語言模型如何從基本的Transformer升遷到BERT和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 福建三明2024~2025學年高一下冊期末模擬數學試題學生卷
- 互聯網平臺數據驅動決策的個性化教育解決方案考核試卷
- 形狀記憶纖維在智能建筑中的應用案例分析考核試卷
- 合成氣制柴油技術環保技術集成與應用考核試卷
- 產業升級中的區域創新能力建設考核試卷
- 部編教材三年級語文下冊各單元試卷(全冊)
- 2025年中國PT泵嘴試驗臺數據監測報告
- 2025年中國PET不干膠數據監測報告
- 2025年中國D-蛋氨酸數據監測研究報告
- 2025年中國48頭超寬高速噴繪機數據監測研究報告
- 信息安全培訓《釣魚郵件防范技巧》
- 2025至2030中國燙印箔行業發展趨勢分析與未來投資戰略咨詢研究報告
- 部編版高一語文必修上冊教案計劃
- 臨時工請假管理制度
- 小學用電安全課件
- 2025年北京市高考英語試卷真題(含答案解析)
- 2025年中國浮萍項目投資可行性研究報告
- 商洛學院《大學學術綜合英語》2023-2024學年第二學期期末試卷
- 2025年高考英語全國二卷聽力試題答案詳解講解(課件)
- 高級采氣工理論練習卷附答案
- 打架斗毆等暴力事件處理流程圖
評論
0/150
提交評論