《基于深度神經(jīng)網(wǎng)絡(luò)的漢字識(shí)別研究的國內(nèi)外文獻(xiàn)綜述》3900字_第1頁
《基于深度神經(jīng)網(wǎng)絡(luò)的漢字識(shí)別研究的國內(nèi)外文獻(xiàn)綜述》3900字_第2頁
《基于深度神經(jīng)網(wǎng)絡(luò)的漢字識(shí)別研究的國內(nèi)外文獻(xiàn)綜述》3900字_第3頁
《基于深度神經(jīng)網(wǎng)絡(luò)的漢字識(shí)別研究的國內(nèi)外文獻(xiàn)綜述》3900字_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于深度神經(jīng)網(wǎng)絡(luò)的漢字識(shí)別研究的國內(nèi)外文獻(xiàn)綜述1.1漢字識(shí)別系統(tǒng)概述二十一世紀(jì)初,已經(jīng)研發(fā)出識(shí)別率較高的聯(lián)機(jī)手寫漢字識(shí)別系統(tǒng),它能夠保存書寫的筆順信息,獲取時(shí)間空間順序從而實(shí)現(xiàn),但是脫機(jī)手寫漢字識(shí)別的發(fā)展遭遇瓶頸,當(dāng)時(shí)世界上并沒有足夠完善的脫機(jī)手寫漢字識(shí)別方法。隨著深度學(xué)習(xí)的興起,計(jì)算機(jī)計(jì)算能力的增長,依托于圖像識(shí)別技術(shù)的進(jìn)步,在2012年,瑞士人工智能實(shí)驗(yàn)室描述了具備“端-端”特點(diǎn)的多列卷積神經(jīng)網(wǎng)絡(luò)模型(MCDNN)。在多列卷積神經(jīng)網(wǎng)絡(luò)中,利用GPU訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的模型,同時(shí)平均集成卷積神經(jīng)網(wǎng)絡(luò)的輸出;將所得到的手寫漢字樣本轉(zhuǎn)換成圖像類別,并通過已搭建的模型訓(xùn)練。在訓(xùn)練的過程中,不采用進(jìn)一步地特征選擇、提取,所得到的最終結(jié)果便是卷積神經(jīng)網(wǎng)絡(luò)希望得到的識(shí)別結(jié)果[2]。在脫機(jī)和聯(lián)機(jī)手寫漢字識(shí)別方面,多列卷積神經(jīng)網(wǎng)絡(luò)模型能夠很好地勝任模式識(shí)別工作,當(dāng)時(shí)的識(shí)別技術(shù)都位居當(dāng)時(shí)世界識(shí)別水平的前列,為手寫漢字識(shí)別問題提供了更加完善的解決方案。盡管以多列卷積神經(jīng)網(wǎng)絡(luò)模型為代表的卷積神經(jīng)網(wǎng)絡(luò)模型簡便且具備比較優(yōu)秀的識(shí)別能力,但缺點(diǎn)也是較為明顯的,端到端的識(shí)別方法不能全面的利用手寫文字的已有研究成果,例如聯(lián)機(jī)手寫漢字中的筆順信息、漢字方位轉(zhuǎn)換特點(diǎn)等,這些手寫漢字的特征是利用本卷積神經(jīng)網(wǎng)絡(luò)無法進(jìn)一步學(xué)習(xí)來實(shí)現(xiàn)的。近年來,伴隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutionalneuralnetworks,CNN)的模型理論不斷完善,對(duì)于它的研究方向也朝著多方面發(fā)展。對(duì)運(yùn)行速度和存儲(chǔ)容量的優(yōu)化是非常重要的一個(gè)方面,因此涌現(xiàn)了許許多多優(yōu)化升級(jí)CNN模型的方法。中國科學(xué)家設(shè)計(jì)出一種9層CNN,該網(wǎng)絡(luò)采用了全局監(jiān)督低維擴(kuò)展(GSLRE)方法,使神經(jīng)網(wǎng)絡(luò)能夠擁有更高的計(jì)算速度更小的模型大小,利用自適應(yīng)權(quán)重(ADW)技術(shù),使得網(wǎng)絡(luò)仍能達(dá)到超過90%的識(shí)別率。盡管精度有所下降,但是僅僅只是下降了0.21%,卻大大減少了計(jì)算量。在CNN的識(shí)別過程中,圖像噪聲也會(huì)對(duì)識(shí)別率產(chǎn)生一些影響——雖然CNN力求最簡便的輸入,更完美的識(shí)別系統(tǒng)應(yīng)當(dāng)可以在這方面進(jìn)行進(jìn)一步地優(yōu)化。在最新的JournalofPhysics:ConferenceSeries雜志上發(fā)表的一篇基于CNN和中值濾波的手寫體漢字識(shí)別進(jìn)行了有關(guān)噪聲處理對(duì)CNN手寫漢字識(shí)別系統(tǒng)的優(yōu)化,中值濾波在散斑噪聲、椒鹽噪聲的處理中有很好地表現(xiàn)。因此首先通過中值濾波法,實(shí)現(xiàn)對(duì)圖像的去噪聲處理過程,再將處理后的圖片信息應(yīng)用到CNN,以此獲得更高的識(shí)別率[3]。如今,國內(nèi)互聯(lián)網(wǎng)公司也推出了各種手寫漢字識(shí)別服務(wù),但對(duì)于風(fēng)格迥異的手寫漢字,仍不能做到始終使得漢字識(shí)別率維持在極高的水平,要做到精確識(shí)別不同風(fēng)格的手寫漢字,仍需要投入更大的精力。1.2深度神經(jīng)網(wǎng)絡(luò)概述深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在我們?nèi)粘I钪凶顬槌R姷男畔⑻幚眍I(lǐng)域,如語音、文字、圖像等方面,獲得了極大的成功[4]。日新月異的計(jì)算機(jī)理論帶來的是這個(gè)世界翻天覆地的變化,計(jì)算機(jī)計(jì)算能力的飛速發(fā)展,使得深度神經(jīng)網(wǎng)絡(luò)已經(jīng)具備足夠的可行性和可用性,現(xiàn)代的優(yōu)秀工程師們,已經(jīng)通過各種技術(shù)手段,搭建不同的深度神經(jīng)網(wǎng)絡(luò),將它應(yīng)用到許許多多的不同領(lǐng)域,并且在各個(gè)領(lǐng)域都擁有者舉世矚目的成就。深度學(xué)習(xí)可謂獨(dú)領(lǐng)風(fēng)騷于音視頻領(lǐng)域上,現(xiàn)今的所有商用語音識(shí)別背后,都有著深度學(xué)習(xí)的影子。除此之外,深度學(xué)習(xí)使得圖像識(shí)別變得極為簡便,大大提高了現(xiàn)今的圖像識(shí)別能力,識(shí)別率相較之前的技術(shù)有了長足進(jìn)步,甚至使得目前對(duì)于圖像識(shí)別的準(zhǔn)確率不屬于人工識(shí)別。就圖像識(shí)別這個(gè)領(lǐng)域而言,他的應(yīng)用已經(jīng)涵蓋了我們生活的方方面面,應(yīng)用最廣的就是為我們所熟知的人臉識(shí)別,指紋識(shí)別等,這些都是深度學(xué)習(xí)在生物特征識(shí)別技術(shù)上的成果。而在自然語言理解方面,深度學(xué)習(xí)也大顯身手。當(dāng)下較為火熱的無人車技術(shù),智能問答,天氣預(yù)報(bào)等,都在深度學(xué)習(xí)的幫助下有著質(zhì)的飛躍[5]。深度神經(jīng)網(wǎng)絡(luò)的起源一般以1994年的LeNet5為起點(diǎn),LeNet5是最早的卷積神經(jīng)網(wǎng)絡(luò),孕育著未來發(fā)展的無限可能。LeNet5最大的特點(diǎn)就是定義了卷積神經(jīng)網(wǎng)絡(luò)的基本特征,即它的層次模型。首次利用卷積操作實(shí)現(xiàn)圖像特征的提取,子采樣利用了圖空間平均技術(shù),而在激活層之中使用了Sigmoid函數(shù)和tanh函數(shù)來進(jìn)行非線性整流操作。LeNet5可以說是深度神經(jīng)網(wǎng)絡(luò)的開山鼻祖。盡管如此,受限于當(dāng)時(shí)的計(jì)算水平,深度神經(jīng)網(wǎng)絡(luò)的發(fā)展遭遇了一個(gè)瓶頸期。但是,相關(guān)的研究人員沒有放棄,緩慢地推動(dòng)著深度神經(jīng)網(wǎng)絡(luò)的持續(xù)發(fā)展。一直到2010年,國外科學(xué)家DanClaudiuCiresan和JurgenSchmidhuber接過深度神經(jīng)網(wǎng)絡(luò)發(fā)展的接力棒,使得深度神經(jīng)網(wǎng)絡(luò)再度進(jìn)入大眾視野,并開啟了深度神經(jīng)網(wǎng)絡(luò)蓬勃發(fā)展的黃金時(shí)代,他們成功搭建了基于NVIDIAGTX280GPU圖形處理器的GPU神經(jīng)網(wǎng)絡(luò)九層模型,能夠?qū)崿F(xiàn)前向傳播和后向反饋計(jì)算。之后的一年里,硅谷的美國巨頭互聯(lián)網(wǎng)公司們也開始使用CNN使得語音識(shí)別的錯(cuò)誤率顯著下降;2012年,AlexKrizhevsky發(fā)表了一篇題為“利用深度卷積網(wǎng)絡(luò)進(jìn)行圖像網(wǎng)絡(luò)分類”的論文,其中確認(rèn)了一種稱為卷積神經(jīng)網(wǎng)絡(luò)的多層卷積計(jì)算模型能夠識(shí)別和分類大約120萬張圖像,達(dá)到了前所未有的精度水平[6]。AlexKrizhevsky利用他的AlexNet在大規(guī)模圖像識(shí)別挑戰(zhàn)大賽ImageNet上大放異彩,以巨大的優(yōu)勢(shì)將圖像識(shí)別的錯(cuò)誤率降低將近十個(gè)百分點(diǎn),錯(cuò)誤率低至百分之十五,斬獲冠軍;同年,谷歌公司完成了從大量的圖片中利用卷積神經(jīng)網(wǎng)絡(luò)使得計(jì)算機(jī)學(xué)習(xí)如何實(shí)現(xiàn)貓臉識(shí)別;而這之后,深度神經(jīng)網(wǎng)絡(luò)的發(fā)展以火箭般的上升速度,閃耀于各個(gè)領(lǐng)域。阿法狗(AlphaGo)于2015年10月橫空出世,是深度學(xué)習(xí)研發(fā)公司DeepMind對(duì)人工智能的最新研究成果,是第一臺(tái)以計(jì)算機(jī)身份打敗了一個(gè)個(gè)人類職業(yè)圍棋選手,最終以巨大的優(yōu)勢(shì)擊敗了世界圍棋冠軍李世石,在圍棋領(lǐng)域被認(rèn)為是世界上最強(qiáng),創(chuàng)造了歷史[7]。下面介紹三種常見的深度神經(jīng)網(wǎng)絡(luò)模型。前饋神經(jīng)網(wǎng)絡(luò):前饋神經(jīng)網(wǎng)絡(luò)(feedforwardneuralnetwork,F(xiàn)NN)神經(jīng)網(wǎng)絡(luò)主要是由輸入層(InputLayer)、隱藏層(HiddenLayer)、輸出層(OutputLayer)來構(gòu)成它的結(jié)構(gòu)。圖1表示的就是一種最簡單的前饋神經(jīng)網(wǎng)絡(luò),底層神經(jīng)元為輸入層,最高層的神經(jīng)元表示輸出層,所有在中間的都為隱藏層。FNN實(shí)現(xiàn)單向傳播,期間并不產(chǎn)生反饋型號(hào),在輸出層得到一個(gè)有向非成圈圖,即為輸出結(jié)果。因?yàn)檫@種神經(jīng)網(wǎng)絡(luò)由多個(gè)隱藏層串型連接,也被人們稱作多層感知機(jī)模型。全連接神經(jīng)網(wǎng)絡(luò)(FullyConnectedNeuralNetwork,F(xiàn)CNN)也是形容FNN的一種方式,顧名思義,其原因在于前饋神經(jīng)網(wǎng)絡(luò)的各個(gè)層次是全連接形成的。另外,各個(gè)神經(jīng)層的神經(jīng)元之間是相互獨(dú)立的,只有相鄰層次的的神經(jīng)細(xì)胞才會(huì)按照全連接方式構(gòu)建,神經(jīng)元由線性加權(quán)求和的“線性層”和以激勵(lì)函數(shù)為基礎(chǔ)的“非線性層”兩部分組成。神經(jīng)元逐層獲取上一層的信號(hào)量輸出到下一層的神經(jīng)元。前饋神經(jīng)網(wǎng)絡(luò)是非常基礎(chǔ)的一種非線性模型,但它所具備的獨(dú)特的思維理念使得人工智能的目光投向深度學(xué)習(xí),引起業(yè)內(nèi)人士的廣泛討論[8]。卷積神經(jīng)網(wǎng)絡(luò):卷積神經(jīng)網(wǎng)絡(luò)在圖像數(shù)據(jù)處理方面大顯身手,但可用于其它形式數(shù)據(jù)的處理,如語音識(shí)別,自然語言處理等方面。舉一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用地例子,比如通過學(xué)習(xí)已有的知識(shí),構(gòu)造好一個(gè)模型,當(dāng)輸入一個(gè)圖像后,它會(huì)根據(jù)訓(xùn)練好的模型對(duì)圖像進(jìn)行一系列的操作,對(duì)圖像進(jìn)行分類,得到一個(gè)較為精確的分類結(jié)果。比如,對(duì)于“籃球”的圖像,它就輸出“籃球”;對(duì)于“橄欖球”的圖像,它不會(huì)認(rèn)為這是一個(gè)籃球,而是通過學(xué)習(xí),知道它是“橄欖球”。如圖2所示,CNN一般由多個(gè)結(jié)構(gòu)相似的單元組成,每個(gè)單元卷積(convolution),激活(activation)和池化(pooling)三個(gè)基本操作。這種結(jié)構(gòu)使得CNN對(duì)于二維結(jié)構(gòu)數(shù)據(jù)的處理,相較于其它多種DNN模型具有無可比擬的優(yōu)勢(shì)。除此之外,CNN在訓(xùn)練的過程中,將參數(shù)在多個(gè)層次重復(fù)使用,提高了運(yùn)算的效率,大大提高了訓(xùn)練速度。生成式對(duì)抗網(wǎng)絡(luò):生成式對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)是深度學(xué)習(xí)研究的一個(gè)非常重要的分支,它由生成器(generator)和判別器(discriminator)組成的一對(duì)相互競爭的網(wǎng)絡(luò)。GAN在噪聲處理,圖像修復(fù),精準(zhǔn)預(yù)測(cè)等領(lǐng)域中有著較好的表現(xiàn);它所具備的突出優(yōu)點(diǎn)是,解決了訓(xùn)練集數(shù)據(jù)缺少的情況下,進(jìn)行相應(yīng)的學(xué)習(xí)訓(xùn)練,主要也是通過模擬現(xiàn)實(shí)數(shù)據(jù)來實(shí)現(xiàn)訓(xùn)練精度的不斷提升。簡單地說,兩個(gè)網(wǎng)絡(luò)協(xié)同工作,生成器通過學(xué)習(xí)真實(shí)世界中的圖像、聲音、文本等信息,不斷制造虛假的類別,而判別器接受這些不斷生成的虛假類別,并區(qū)分真實(shí)與虛假的類別。好比一個(gè)古董鑒評(píng)師,根據(jù)自身鑒別贗品和正品的經(jīng)驗(yàn),不斷提高自身的鑒定水平,從而更好地進(jìn)行鑒定工作。如圖3所示,隨機(jī)噪聲輸入到生成器中形成“偽樣本”,再把“偽樣本”和“真樣本”輸入至判別器,在[0,1]區(qū)間給定一個(gè)數(shù)值,越接近“1”表示可信程度越高,越接近“0”表示可信程度越低。不斷重復(fù)這一過程中,進(jìn)行“生成”和“對(duì)抗”兩種操作,生成器學(xué)習(xí)如何制造更加完美的“贗品”,判斷器學(xué)習(xí)如何更好地區(qū)分“真?zhèn)巍保罱K形成了這一深度神經(jīng)網(wǎng)絡(luò)模型[9]。人工智能(AI)是在全球范圍內(nèi)興起的一個(gè)熱詞,它涉及到科技、軍事、金融等各個(gè)關(guān)鍵領(lǐng)域,已經(jīng)成為了全球經(jīng)濟(jì)競爭新的主題,已經(jīng)可以在一定程度上反映國家的部分科技硬實(shí)力。有別之前的幾次工業(yè)革命,在最新的以人工智能為核心技術(shù)的生產(chǎn)革命中,中國已經(jīng)站在了與西方國家同一起跑線上,已經(jīng)積累了足夠的底蘊(yùn)支持發(fā)起新一輪的技術(shù)提升。深度學(xué)習(xí)作為人工智能的一個(gè)分支,中國已經(jīng)投入了足夠的人力物力開展相關(guān)的研究,中國的前沿科學(xué)家工程師們憑著他們的智慧,在世界舞臺(tái)上占據(jù)了一席之地。在深度學(xué)習(xí)領(lǐng)域上,中國研究者們發(fā)表的論文數(shù)以及相關(guān)的專利數(shù)在這幾年保持著高速的增長水平,甚至超越美國。例如,清華大學(xué)的博士生導(dǎo)師黃高教授就提出了一種名為密集連接卷積網(wǎng)絡(luò)模型(DenseNet)。DenseNet有別于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),它創(chuàng)造性地構(gòu)造了一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論