




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
機器學習深度學習—循環神經網絡復旦大學趙衛東章節介紹深度學習是一種利用復雜結構的多個處理層來實現對數據進行高層次抽象的算法,是機器學習的一個重要分支。傳統的BP算法僅有幾層網絡,需要手工指定特征且易出現局部最優問題,而深度學習引入了概率生成模型,可自動地從訓練集提取特征,解決了手工特征考慮不周的問題,而且初始化了神經網絡權重,采用反向傳播算法進行訓練,與BP算法相比取得了很好的效果。本章主要介紹了深度學習相關的概念和主流框架,重點介紹卷積神經網絡和循環神經網絡的結構以及常見應用。復旦大學趙衛東循環神經網絡循環神經網絡是一種對序列數據建模的神經網絡。RNN不同于前向神經網絡,它的層內、層與層之間的信息可以雙向傳遞,更高效地存儲信息,利用更復雜的方法來更新規則,通常用于處理信息序列的任務。RNN在自然語言處理、圖像識別、語音識別、上下文的預測、在線交易預測、實時翻譯等領域得到了大量的應用。復旦大學趙衛東《全世界就在那里》(外二首)○小冰河水上滑過一對對盾牌和長矛她不再相信這是人們的天堂眼看著太陽落了下去這時候不必再有愛的詩句全世界就在那里早已拉下了離別的帷幕生命的顏色你雙頰上的道理是人們的愛情撒向天空的一個星變幻出生命的顏色我跟著人們跳躍的心太陽也不必再為我遲疑
記錄著生命的憑證像飛在天空沒有羈絆的云冰雪后的水那霜雪鋪展出的道路是你的聲音啊雪花中的一點顏色是開啟我生命的象征我的心兒像冰雪后的水一滴一滴翻到最后給我生命的上帝把它吹到縹緲的長空機器人寫詩歌《機智過人》機心造化本無私,智略功夫巧笑時。過客不須頻眺望,人間天上有新詩。——機器人“九歌”復旦大學趙衛東圖像加標題復旦大學趙衛東議程RNN基本原理RNN主要用來處理序列數據,在傳統的神經網絡模型中,是從輸入層到隱含層再到輸出層,每層內的節點之間無連接,循環神經網絡中一個當前神經元的輸出與前面的輸出也有關,網絡會對前面的信息進行記憶并應用于當前神經元的計算中,隱藏層之間的節點是有連接的,并且隱藏層的輸入不僅包含輸入層的輸出還包含上一時刻隱藏層的輸出。理論上,RNN可以對任意長度的序列數據進行處理。復旦大學趙衛東議程RNN基本原理一個典型的RNN網絡結構如下圖所示。復旦大學趙衛東議程RNN基本原理
復旦大學趙衛東議程RNN基本原理
與CNN一樣,RNN也是參數共享,在時間維度上,共享權重參數U、V和W復旦大學趙衛東議程RNN基本結構復旦大學趙衛東議程RNN的運行過程復旦大學趙衛東RNN示例復旦大學趙衛東RNN的運行示例復旦大學趙衛東RNN的訓練在每個時間節點t=0,1,2,3,4神經網絡的輸出都會產生誤差值:E0,E1,E2,E3,E4。與前饋神經網絡類似,RNN也使用反向傳播梯度下降法更新權重。復旦大學趙衛東RNN的不足(1)RNN缺陷:長期依賴(LongTermDependencies)問題,產生長跨度依賴(短時記憶)的問題。梯度消失復旦大學趙衛東RNN的不足(2)當梯度很大時,可以采用梯度截斷的方法,將梯度約束在一個范圍內。梯度爆炸復旦大學趙衛東議程長短期記憶網絡長短期記憶網絡能夠學習長期依賴關系,并可保留誤差,在沿時間和層進行反向傳遞時,可以將誤差保持在更加恒定的水平,讓遞歸網絡能夠進行多個時間步的學習,從而建立遠距離因果聯系。它在許多問題上效果非常好,現在被廣泛應用。復旦大學趙衛東(1)輸入一個輸出多個,例如輸入一張圖像,輸出這個圖像的描述信息。(2)輸入是多個,輸出則是一個,例如輸入段話,輸出這段話的情感。(3)輸入是多個,輸出也是多個,如機器翻譯輸入一段話輸出也是一段話(多個詞)。(4)多個輸入和輸出是同步的,例如進行字幕標記。RNN分類:循環神經網絡的類型RNN圖像注釋O.Vinyalsetal.Showandtell:Aneuralimagecaptiongenerator,arXiv:1411.4555v1,2014RNN實例RNN與LSTM議程長短期記憶神經網絡長短期記憶網絡將信息存放在遞歸網絡正常信息流之外的門控單元中,這些單元可以存儲、寫入或讀取信息,就像計算機內存中的數據一樣。但愿通過門的開關判定存儲哪些信息,何時允許讀取、寫入或清除信息。這些門是模擬的,包含輸出范圍全部在0~1之間的Sigmoid函數的逐元素相乘操作。這些門依據接收到的信號開關,而且會用自身的權重集對信息進行篩選,根據強度和輸入內容決定是否允許信息通過。這些權重會通過遞歸網絡的學習過程進行調整。復旦大學趙衛東長短期記憶神經網絡的結構長短期記憶神經網絡運行動畫遺忘門的Sigmoid激活函數一個新的候選值,判斷是否將其加入到元胞狀態中保留重要信息,更新狀態忘掉不重要信息選擇重要的信息作為元胞狀態的輸出長短期記憶神經網絡的結構遺忘門的Sigmoid激活函數一個新的候選值,判斷是否將其加入到元胞狀態中保留重要信息,更新狀態忘掉不重要信息選擇重要的信息作為元胞狀態的輸出長短期記憶神經網絡的結構
一般使用sigmoid函數,it控制了t時刻新輸入的接受程度遺忘門的Sigmoid激活函數一個新的候選值,判斷是否將其加入到元胞狀態中保留重要信息,更新狀態忘掉不重要信息選擇重要的信息作為元胞狀態的輸出長短期記憶神經網絡的結構遺忘門的Sigmoid激活函數一個新的候選值,判斷是否將其加入到元胞狀態中保留重要信息,更新狀態忘掉不重要信息選擇重要的信息作為元胞狀態的輸出長短期記憶神經網絡的結構狀態向量Ct不會全部輸出議程長短期記憶網絡長短期記憶網絡的步驟如下:決定從元胞狀態中扔掉哪些信息。由叫做“遺忘門”的Sigmoid層控制。遺忘門會輸出0~1之間的數,1表示保留該信息,0表示丟棄該信息通過輸入門將有用的新信息加入到元胞狀態。首先,將前一狀態和當前狀態的輸入輸入到Sigmoid函數中濾除不重要信息。另外,通過tanh函數得到一個-1?1之間的輸出結果。這將產生一個新的候選值,后續將判斷是否將其加入到元胞狀態中。將上一步中Sigmoid函數和tanh函數的輸出結果相乘,并加上第一步中的輸出結果,從而實現保留的信息都是重要信息,此時更新狀態即可忘掉那些不重要的信息最后,從當前狀態中選擇重要的信息作為元胞狀態的輸出。首先,將前一隱狀態和當前輸入值通過Sigmoid函數得到一個0?1之間的結果值。然后對第三步中輸出結果計算tanh函數的輸出值,并與得到的結果值相乘,作為當前元胞隱狀態的輸出結果,同時也作為下一個隱狀態的輸入值復旦大學趙衛東議程長短期記憶網絡的訓練過程復旦大學趙衛東多隱層LSTM(堆疊)復旦大學趙衛東BiLSTM復旦大學趙衛東雙層雙向LSTM復旦大學趙衛東BiLSTM實例議程門限循環單元門限循環單元本質上就是一個沒有輸出門的長短期記憶網絡,因此它在每個時間步都會將記憶單元中的所有內容寫入整體網絡。GRU只有兩個門:重置門和更新門,將遺忘門和輸入門合并為更新門,將細胞狀態
與隱藏層輸出
合并在一起。
復旦大學趙衛東議程門限循環單元門限循環單元模型只有兩個門,分別是更新門和重置門,更新門是遺忘門和輸入門的結合體。將元胞狀態和隱狀態合并,更新門用于控制前一時刻的狀態信息被帶入到當前狀態中的程度,更新門的值越大說明前一時刻的狀態信息帶入越多。重置門用于控制忽略前一時刻的狀態信息的程度,重置門的值越小說明忽略的越多。這個模型比長短期記憶網絡更加簡化,也變得越來越流行。復旦大學趙衛東議程LSTM與GRU復旦大學趙衛東指標數據:開盤收盤最低最高成交量基于LSTM的股票預測-數據引入復旦大學趙衛東數據預處理(歸一化)之后結果:基于LSTM的股票預測-數據預處理復旦大學趙衛東樣本結果標記:窗口后漲跌作為樣本標記,即窗口后的交易結果作為預測結果模型采用MSE作為損失函數,對預測結果進行評價加窗(window)股票走勢轉化為回歸問題進行預測基于LSTM的股票預測-準備樣本復旦大學趙衛東2層GRU(n_layers=2)損失函數MSE基于LSTM的股票預測-設計LSTM網絡復旦大學趙衛東訓練epoch次數:10訓練集:1300+驗證集:170+測試集170+基于LSTM的股票預測-預測結果復旦大學趙衛東基于LSTM的電商秒殺業務預測復旦大學趙衛東基于LSTM的電商秒殺業務預測(1)復旦大學趙衛東基于LSTM的電商秒殺業務預測(2)復旦大學趙衛東注意力機制復旦大學趙衛東seq2seq與注意力機制模型(1)seq2seq模型最早是在2013年由cho等人提出一種RNN模型,主要的應用目的就是機器翻譯。seq2seq模型是序列對序列的模型,
本質上是一種多對多的RNN模型,也就是輸入序列和輸出序列不等長的RNN模型。seq2seq廣泛應用在神經機器翻譯、文本摘要、語音識別、文本生成、AI寫詩等。復旦大學趙衛東seq2seq與注意力機制模型(2)注意力機制本質上是一種注意力資源分配的模型。編碼器將輸入編碼成上下文變量C,在解碼時每一個輸出Y都會不加區分的使用這個C進行解碼。注意力模型根據序列的每個時間步將編碼器編碼為不同C,在解碼時,結合每個不同的C進行解碼輸出。一段漢譯英的機器翻譯注意力模型圖解示意圖復旦大學趙衛東ELMo語言模型(1)詞向量:詞的獨熱編碼:用0,1表示,無法計算詞之間的(語義)相似度,導致向量稀疏詞向量模型:大多數詞向量都是固定的,無法表示在不同語境下的含義(一詞多義)非LM:CBOW,Skip-gram,...基于LM:Glove,ELMO,...復旦大學趙衛東ELMo語言模型(2)ELMo是一種在詞向量(vector)或詞嵌入(embedding)中表示詞匯的方法。與word2vec、GLoVe等詞嵌入不同,ELMo中每個詞對應的向量是一個包含該詞的整個句子的函數,同一個詞在不同的上下文中對應不同的詞向量。ELMo可用于以下自然語言處理領域:情感分析機器翻譯語言模型文本摘要命名實體識別問答系統情感分析/contest/practice-problem-twitter-sentiment-analysis//developer/article/1458629復旦大學趙衛東ELMo語言模型(3)將原始詞向量輸入雙向語言模型中第一層前向迭代中包含了該詞及其之前的詞匯或語境的信息后向迭代中包含了其之后的信息這兩種迭代的信息組成了中間詞向量這些中間詞向量被輸入到模型的下一層最終ELMo是原始詞向量和兩個中間詞向量的加權和/pdf/1802.05365.pdf復旦大學趙衛東深度學習流行框架目前深度學習領域主要實現框架有TensorFlow、Caffe、Torch、Keras、MxNet、Deeplearning4j等,針對這些框架的特點做對比介紹。復旦大學趙衛東議程TorchTorch由Lua語言編寫,支持機器學習算法,核心是以圖層的方式定義網絡,優點是包括了大量的模塊化的組件,可以快速進行組合,并且具有較多訓練好的模型,可以直接應用,支持GPU加速,模型運算性能較強。缺點在于需要LuaJIT的支持,對于開發者學習和應用集成有一定的障礙,文檔方面的支持較弱,對商業支持較少,大部分時間需要自己編寫訓練代碼。復旦大學趙衛東議程TensorFlowTensorFlow由Python語言編寫,通過C/C++引擎加速,相對應的教程、資源、社區貢獻比較多,出現問題容易查找解決方案。用途廣泛,支持強化學習和其他算法的工具,與NumPy等庫進行組合使用可以展現強大的數據分析能力,支持數據和模型的并行運行,在數據展現方面,可以使用TensorBoard對訓練過程和結果按WEB方式進行可視化。復旦大學趙衛東議程CaffeCaffe是較早出現的工業級深度學習工具,將Matlab實現的快速卷積網絡移植到了C和C++平臺上。不適用于文本、聲音或者時間序列數據等其他類型的深度學習應用,在RNN方面建模能力較差。Caffe采用P
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新疆沙灣縣一中2025年化學高一下期末綜合測試試題含解析
- AI大模型智慧應急總體設計規劃方案
- 2025至2030年中國熱轉印運動水壺行業投資前景及策略咨詢報告
- 2025至2030年中國手提話筒行業投資前景及策略咨詢報告
- 整數減負數題目及答案
- 爭議性題目及答案
- 2025年中國鎢鋼襯套行業投資前景及策略咨詢研究報告
- 2025年中國腳踏粘塵墊行業投資前景及策略咨詢研究報告
- 2025年中國管架行業投資前景及策略咨詢研究報告
- 2025年中國鹽水肫行業投資前景及策略咨詢研究報告
- 學科建設研討活動方案
- 千川投手培訓課件
- 廣東省佛山禪城區七校聯考2025屆七下英語期末預測試題含答案
- Unit 3 Same or Different?Section A 課件 人教版英語八年級上冊
- 2024年中級人民法院勞動審判輔助人員招聘考試筆試試題(含答案)
- 2025年廣東省高考語文試卷(含標準答案)
- 中國熱射病診斷與治療指南(2025版)
- 公共藝術裝置項目管理流程
- GB/T 45610-2025煤矸石回填塌陷區復墾技術規程
- 中醫基礎執業醫師考試試題及答案
- 診所托管合同協議
評論
0/150
提交評論