OCR光學(xué)字符識(shí)別技術(shù)_第1頁(yè)
OCR光學(xué)字符識(shí)別技術(shù)_第2頁(yè)
OCR光學(xué)字符識(shí)別技術(shù)_第3頁(yè)
OCR光學(xué)字符識(shí)別技術(shù)_第4頁(yè)
OCR光學(xué)字符識(shí)別技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1 OCR簡(jiǎn)介OCR是英文Optical Character Recognition的縮寫,意思是光學(xué)字符識(shí)別,也可簡(jiǎn)單地稱為文字識(shí)別,是文字自動(dòng)輸入的一種方法。它通過掃描和攝像等光學(xué)輸入方式獲取紙張上的文字圖像信息,利用各種模式識(shí)別算法分析文字形態(tài)特征,判斷出漢字的標(biāo)準(zhǔn)編碼,并按通用格式存儲(chǔ)在文本文件中,從根本上改變了人們對(duì)計(jì)算機(jī)漢字人工編碼錄入的概念。使人們從繁重的鍵盤錄入漢字的勞動(dòng)中解脫出來。只要用掃描儀將整頁(yè)文本圖像輸入到計(jì)算機(jī),就能通過OCR軟件自動(dòng)產(chǎn)生漢字文本文件,這與人手工鍵入的漢字效果是一樣的,但速度比手工快幾十倍。比如用手機(jī)給名片拍照,名片中的姓名、電話號(hào)碼等信息就會(huì)自動(dòng)識(shí)別

2、進(jìn)入到手機(jī)中,從此查詢、撥打輕而易舉。目前支持該功能的手機(jī)主要有摩托羅拉A1200、索愛P990和LG G832等。所以,OCR是一種非常快捷、省力的文字輸入方式,也是在文字量比較大的今天,很受人們歡迎的一種輸入方式。2 OCR的發(fā)展概況20世紀(jì)70年代初,日本的學(xué)者開始研究漢字識(shí)別,并做了大量的工作。我國(guó)研究漢字識(shí)別的起步比較晚,20世紀(jì)70年代末才開始進(jìn)行OCR的研究工作。早期的OCR軟件,由于識(shí)別率及產(chǎn)品化等多方面的因素,未能達(dá)到實(shí)際要求。同時(shí),由于硬件設(shè)備成本高,運(yùn)行速度慢,也沒有達(dá)到實(shí)用的程度。只有個(gè)別部門,如信息部門、新聞出版單位等使用OCR軟件。1986年以后我國(guó)的OCR研究有了

3、很大進(jìn)展,在漢字建模和識(shí)別方法上都有所創(chuàng)新,在系統(tǒng)研制和開發(fā)應(yīng)用中都取得了豐碩的成果,不少單位相繼推出了中文OCR產(chǎn)品。進(jìn)入20世紀(jì)90年代以后,隨著平臺(tái)式掃描儀的廣泛應(yīng)用,以及我國(guó)信息自動(dòng)化和辦公自動(dòng)化的普及,大大推動(dòng)了OCR技術(shù)的進(jìn)一步發(fā)展,使OCR的識(shí)別正確率、識(shí)別速度滿足了廣大用戶的要求。目前,比較流行的OCR軟件很多,英文OCR主要有OmniPage,中文OCR主要有清華紫光OCR、清華文通OCR、漢王OCR、中晶尚書OCR、丹青OCR、蒙恬OCR等。盡管漢字字量大、字形復(fù)雜,但OCR技術(shù)已經(jīng)走向成熟。許多OCR軟件不僅能識(shí)別黑白印刷體漢字,還能識(shí)別灰度和彩色印刷體漢字,識(shí)別速度很快

4、,識(shí)別正確率達(dá)到了99以上;可識(shí)別宋體、黑體、楷體等多種字體的簡(jiǎn)、繁體;可對(duì)多種字體、不同字號(hào)的混排進(jìn)行識(shí)別;有些OCR軟件還能識(shí)別圖像、表格。與此同時(shí),對(duì)于手寫體漢字識(shí)別的研究也取得了很大進(jìn)展,正確識(shí)別率已達(dá)到了70以上。3 OCR系統(tǒng)的組成漢字識(shí)別軟件OCR的功能是將各種錄入漢字、印刷體或手寫體中每個(gè)漢字的圖形或圖像通過計(jì)算機(jī)辨認(rèn)出來,并標(biāo)出漢字類別代碼。因此,漢字識(shí)別歸根結(jié)底是一個(gè)圖像識(shí)別問題。由于漢字信息量很大,具有不同的字形、字體,而且結(jié)構(gòu)復(fù)雜,因此漢字識(shí)別的過程極其復(fù)雜。由于掃描儀的普及與廣泛應(yīng)用,OCR軟件只需提供與掃描儀的接口,利用掃描儀驅(qū)動(dòng)軟件即可。因此,OCR軟件主要是由圖

5、像處理模塊、版面劃分模塊、文字識(shí)別模塊和文字編輯模塊等4部分組成。1)圖像處理模塊 圖像處理模塊主要具有文稿掃描、圖像縮放、圖像旋轉(zhuǎn)等功能。通過掃描儀輸入后,文稿形成圖像文件,圖像處理模塊可對(duì)圖像進(jìn)行放大,去除污點(diǎn)和劃痕,如果圖像放置不正,可以手工或自動(dòng)旋轉(zhuǎn)圖像,目的是為文字識(shí)別創(chuàng)造更好的條件,使識(shí)別率更高。2)版面劃分模塊 版面劃分模塊主要包括版面劃分、更改劃分,即對(duì)版面的理解、字切分、歸一化等,可選擇自動(dòng)或手動(dòng)兩種版面劃分方式。目的是告訴OCR軟件將同一版面的文章、表格等分開,以便于分別處理,并按照怎樣的順序進(jìn)行識(shí)別。3)文字識(shí)別模塊 文字識(shí)別模塊是OCR軟件的核心部分,文字識(shí)別模塊主要對(duì)

6、輸入的漢字進(jìn)行"閱讀",但不能一目多行,必須逐行切割,對(duì)于漢字通常也是一個(gè)字一個(gè)字地辨認(rèn),即單字識(shí)別,再進(jìn)行歸一化。文字識(shí)別模塊通過對(duì)不同樣本漢字的特征進(jìn)行提取,完成識(shí)別,自動(dòng)查找可疑字,具有前后聯(lián)想等功能。4)文字編輯模塊 文字編輯模塊主要對(duì)OCR識(shí)別后的文字進(jìn)行修改、編輯,如系統(tǒng)識(shí)別認(rèn)為有誤,則文字會(huì)以醒目的紅色或藍(lán)色顯示,并提供相似的文字供選擇,選擇編輯器供輸出等。4 OCR識(shí)別的一般步驟(1)文稿掃描后,剛開始出現(xiàn)在視窗中的要識(shí)別的文字畫面很小,首先選擇"放大"工具,對(duì)畫面進(jìn)行適當(dāng)放大,以使畫面看得更清楚。必要時(shí)還可以選擇"縮小&quo

7、t;工具,將畫面適當(dāng)縮小。(2)如果畫面需要旋轉(zhuǎn)90°,180°或270°,可使用"旋轉(zhuǎn)圖像"工具旋轉(zhuǎn)圖像。如果文字畫面傾斜,可選擇"傾斜校正"工具,將畫面調(diào)正。(3)識(shí)別時(shí)選擇"設(shè)定識(shí)別區(qū)域"工具,在文字畫面上框出要識(shí)別的區(qū)域,這時(shí)也可根據(jù)畫面情況框出多個(gè)區(qū)域。如果所框區(qū)域有誤,則可使用"刪除識(shí)別區(qū)域"工具,刪除所選識(shí)別區(qū)域。(4)為了提高識(shí)別率,如果所選識(shí)別區(qū)有雜點(diǎn)或有不能識(shí)別的圖像,則可選擇"擦除圖像雜點(diǎn)"工具,將雜點(diǎn)一點(diǎn)一點(diǎn)地擦除。如果需要成片地擦除,則可選

8、擇"擦拭圖像塊"工具。(5)點(diǎn)擊"識(shí)別"圖標(biāo),則OCR顯示正在進(jìn)行文字切分,然后轉(zhuǎn)入"正在識(shí)別"畫面,將識(shí)別的文字逐步顯示出來,"文稿校對(duì)"窗口。許多OCR軟件都具有文字修改功能,被識(shí)別出可能有錯(cuò)誤的文字,用比較鮮明的顏色顯示出來,并且可以進(jìn)行修改。(6) 將識(shí)別后的文件存儲(chǔ)成文本(TXT)文件或Word的RTF文件。 一個(gè)OCR識(shí)別系統(tǒng),其目的很簡(jiǎn)單,只是要把影像作一個(gè)轉(zhuǎn)換,使影像內(nèi)的圖形繼續(xù)保存、有表格則表格內(nèi)資料及影像內(nèi)的文字,一律變成計(jì)算機(jī)文字,使能達(dá)到影像資料的儲(chǔ)存量減少、識(shí)別出的文字可再使用及分析,當(dāng)然

9、也可節(jié)省因鍵盤輸入的人力與時(shí)間。5 OCR技術(shù)的應(yīng)用及其優(yōu)勢(shì) 目前OCR軟件與掃描儀的搭配已應(yīng)用到信息化時(shí)代的多個(gè)領(lǐng)域,如數(shù)字化圖書館,各種報(bào)表的識(shí)別,以及銀行、稅務(wù)系統(tǒng)票據(jù)的識(shí)別等。隨著網(wǎng)絡(luò)化、信息化的發(fā)展與普及,其應(yīng)用范圍將越來越廣泛。 無(wú)論是讓計(jì)算機(jī)對(duì)文字進(jìn)行排版輸出,還是要讓計(jì)算機(jī)認(rèn)識(shí)它看到文字,所有這一切都是為我們生活服務(wù)。信息化和數(shù)字化的進(jìn)程,讓我們不再安于用十指敲擊鍵盤來輸入數(shù)據(jù)。人們希望能將時(shí)間和精力投入到更具創(chuàng)造性的工作中去,因而希望計(jì)算機(jī)等輔助設(shè)備能更具智慧。OCR技術(shù)就是其中的一項(xiàng),跟打印技術(shù)相對(duì),它是讓計(jì)算機(jī)認(rèn)字的一種技術(shù),這遠(yuǎn)比打印復(fù)雜得多。經(jīng)濟(jì)競(jìng)爭(zhēng)帶來更多的商務(wù)活動(dòng)

10、,每個(gè)活動(dòng)上名片都是必不可少的主角,名片的管理產(chǎn)品也應(yīng)運(yùn)而生,名片識(shí)別管理工具同樣也是以O(shè)CR技術(shù)為核心的產(chǎn)品。通過名片識(shí)別工具將名片進(jìn)行掃描、識(shí)別、分類,不僅能夠?qū)胧謾C(jī)、PDA等,而且還能為名片信息進(jìn)行備份,不用擔(dān)心遺失。文通e-card就是一款優(yōu)秀的名片識(shí)別管理產(chǎn)品,OCR技術(shù)能把商務(wù)生活打理得有條不紊,節(jié)約更多的時(shí)間。現(xiàn)在,幾乎所有的掃描儀和一體機(jī)上都配裝OCR軟件,比如HP、UNISCAN、EPSON、CANON、 LENOVO等掃描儀廠商捆綁的就是文通TH-OCR。 在掃描儀市場(chǎng)上,許多類型的辦公和家用掃描儀均配有OCR軟件,如紫光的掃描儀配備了紫光OCR,中晶的掃描儀配備了尚書O

11、CR,Mustek的掃描儀配備了丹青OCR等。掃描儀與OCR軟件共同承擔(dān)著從文稿的輸入到文字識(shí)別的全過程。 文稿掃描在辦公領(lǐng)域中經(jīng)常用到,即將報(bào)紙、雜志等媒體上刊載的有關(guān)文稿通過掃描儀進(jìn)行掃描,隨后進(jìn)行OCR識(shí)別,或存儲(chǔ)成圖像文件,留待以后進(jìn)行OCR識(shí)別,將圖像文件轉(zhuǎn)換成文本文件或Word文件進(jìn)行存儲(chǔ)。此外,數(shù)字化信息的存儲(chǔ)、傳輸、不僅成本低、效率高,而且能夠適應(yīng)排版,網(wǎng)絡(luò)傳輸?shù)炔粩喟l(fā)展的需要。目前我國(guó)有很多歷史遺留下來的大量圖書、報(bào)刊、雜志等紙質(zhì)珍品,急需將其轉(zhuǎn)換成電子信息。如電子圖書館的建立,就需要將圖書逐頁(yè)掃描,加上OCR軟件的識(shí)別,更替代了人工鍵入文字的工作,大大縮短了錄入時(shí)間,減輕了

12、勞動(dòng)強(qiáng)度,節(jié)省了人力且降低了費(fèi)用,提高了錄入正確率、工作效率和現(xiàn)代辦公自動(dòng)化程度。OCR技術(shù)的優(yōu)勢(shì)1) 創(chuàng)新著錄標(biāo)引方式OCR技術(shù)提供了一種新的著錄方式,使檔案條目通過計(jì)算機(jī)錄入成為可能。工作人員可以直接從OCR后的全文中找到著錄項(xiàng)(如題名、文號(hào)、責(zé)任者等),復(fù)制粘貼到目錄數(shù)據(jù)庫(kù)的相應(yīng)字段中去。但這么做必須先掃描檔案全文、OCR,然后再輸條目,顛覆了檔案數(shù)字化工作的一般工作流程,因此可行性并不高。還有一種方法是先將檔案卷內(nèi)目錄掃描、OCR處理,再?gòu)?fù)制粘貼條目,或通過特定的程序自動(dòng)采集條目信息。但由于很多卷內(nèi)目錄是手寫的,OCR無(wú)法識(shí)別,只得依靠手工錄入。相信隨著未來技術(shù)的發(fā)展,OCR在這方面的應(yīng)用一定能夠有所突破。2 實(shí)現(xiàn)真正的全文檢索3支持雙層PDF技術(shù)雙層PDF技術(shù)既能較好地保證檔案的原真性,在用戶需要時(shí)又能對(duì)檔案中的文字進(jìn)行選擇、復(fù)制、搜

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論