




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、*大學本科畢業設計(論文)開題報告論文題目:基于OCR的名片識別技術研究學 院: *學院 專 業: *工程 年 級: 201*級 班 級: * 學 號: * 姓 名: * 指導教師: * 本科畢業設計(論文)開題報告專業: * 班級:*學號姓名指導教師報 告 題 目基于OCR的名片識別技術研究題目來源(劃)科研生產實驗室專題研究企業聯合論文類型(劃)工程設計類實驗研究類軟件開發類其 他 報 告 日 期2015年 月 日 報告地點: 一、選題目的與背景名片已經成為一種簡單且美觀的信息載體,扮演著重要的角色,日常生活和商務活動中,它具有介紹、溝通、留存紀念等多種功能,是當代人際交往中不可缺少的名字
2、的派生物。當下手機、掌上電腦筆記本、電子記事簿以及 PC 機都能夠完成對于名片的管理,但是經過手動方式輸入大量的名片不僅僅是浪費時間,同時也浪費人的體力,除此之外也不能保證信息的正確性和完備性,這就會使得日常生活中經常用到的設備,如手機、掌上電腦及電子記事簿等對名片信息的管理和使用大減折扣。于是急需開發出一種高識別度、易于操作和管理的名片識別系統,使終端設備能夠自動將名片中的內容進行保存,便于人們使用6,7。基于 OCR 技術的名片識別方法可解決上述問題,其優點是識別準確率高、復雜低和速度快,適用于各種版式的名片。所謂的 OCR 技術指的是光學文字識別,它是 Optical Character
3、 Recognition 的簡稱,是利用掃描把所有書籍、文稿及材料進行掃描,再對圖片文稿做一下研究分析,取得字符和版面上信息的一個過程3,4。因此,采用 OCR 技術進行名片識別,并解決已有名片識別方法中存在的問題,具有非常重要的實際意義。二、國內外研究現狀漢王公司于 1999 年推出了第一個中文名片識別與管理系統,歷經 9 年的發展,功能越來越強大,識別技術水平不斷提高,成為繼 PDA、手機后又一個個人資源管理必備工具,目前在國內市場上銷售的中文名片識別系統有北京漢王科技有限公司的漢王名片通、臺灣蒙恬公司的蒙恬名片王、清華紫光公司的紫光名片大師、新加坡維優公司的維優名片管家等。“漢王名片通”
4、的研發起步最早,識別率最高,從 1999 年開始已開發出 10 幾個版本,占中國大陸中文名片識別市場份額的 90%以上4。目前,有一些文獻討論名片的識別方法,文獻8提出了一種多階段識別方法,采用兩種不同類型的神經網絡識別中文名片;文獻9構造了一個完整的中文名片識別系統,但只能處理純橫排或純豎排的名片,而且假設已知待識別的字體;文獻10采用模板匹配的方法分析名片版面,因此只能處理固定版面的名片。這些文獻沒有考慮構造實際系統可能會遇到的困難,比如:名片版面復雜,文字行橫豎混排;行內文字排版方向不同;字符粘連;字體、字號變化頻繁;漢英雙語混排;簡繁混排。由于名片識別系統的關鍵在于字符識別與版面分析上
5、,所以在此重點介紹版面分析與字符識別的研究現狀。版面分析技術,己有四十多年的歷史,八十年代早期,版面分析技術的初期研究大多集中于對布局結構較簡單的文本文檔頁面進行分割,到九十年代初,對文檔內部對象進行邏輯標識的研究開始逐步展開。目前,版面分析技術的研究已發展到針對各個不同領域的文檔采用不同的技術,多角度地科學研究,并解決實際問題2。字符識別的研究,早在 1929 年,Taushek 就在德國獲得了一項有關 OCR 的專利。據記載,印刷體漢字的識別最早可以追溯到 60 年代5。1966 年,IBM 公司的 Casey 和 Nagy 發表了第一篇關于印刷體漢字識別的論文,在這篇論文中他們利用簡單的
6、模板匹配法識別了 1,000 個印刷體漢字。70 年代以來,日本學者做了許多工作,其中有代表性的系統有 1977 年東芝綜合研究所研制的可以識別 2000 個漢字的單體印刷漢字識別系統;80 年代初期,日本武藏野電氣研究所研制的可以識別 2300 個多體漢字的印刷體漢字識別系統,代表了當時漢字識別的最高水平。此外,日本的二洋、松下、理光和富士等公司也有其研制的印刷漢字識別系統。 我國在 OCR 技術方面的研究起步較晚,在 70 年代才開始對數字、英文字母及符號的識別進行研究,70 年代末開始進行漢字識別的研究,到 1986 年漢字識別的研究進入一個實質性的階段,取得了較大的成果,不少研究單位相
7、繼推出了中文 OCR 產品,在中文信息處理領域有代表性的清華大學,漢王公司等都推出了各自代表性的產品,其中包括漢王的尚書五號、六號,漢王表格自動錄入系統,蒙恬 OCR 文字掃描辨識系統,清華文通的 TH-OCR97, TH-OCR2000、清華紫光的紫光 OCR6,7。這些軟件在文字識別方面,從識別速度和識別率上看,基本都達到了實用的效果,到目前為止,印刷體漢字識別技術和系統性能有了長足進步,系統的穩健性也得到進一步提高。三、主要研究內容和方法1. 研究內容以印刷體紙質中文名片圖像作為信息來源,對名片圖像進行二值化、平滑去噪、傾斜校正等預處理1,獲得能夠達到識別要求的圖像數據。然后研究名片版面
8、分析方法,對名片的文字區域進行劃分。通過對文本行圖像進行字符切分,并進一步提取字符特征進行特征匹配,與數據庫中的文字進行比對,最終完成中文名片文字的識別。2. 研究方法(1) 圖像預處理方法由于輸入設備得到的數據不可避免的存在各種外在干擾(名片圖像的墨跡的濃淡、光潔度等),因此在對原始名片圖像進行識別之前,盡可能將干擾因素的影響降低,需要對名片圖像進行包括二值化、平滑去噪、傾斜校正在內的預處理操作,從而獲得能夠達到識別要求的圖像數據。(2) 名片版面分析方法名片版面分析將名片圖像切分為不同區域,再把其劃分為不同的類型,如圖片塊、文本塊和線條等。雖然名片圖像的版面構造多種多樣,仍能夠將它劃分成三
9、類圖像組合: 1. 文字塊:完全由字符構成,它包含中文、字母、數字以及各種標點符號等。 2. 線條塊:有些名片圖像中含有線條,用來醒目單位名稱以及有關信息等,通常位于姓名與單位名稱間或單位名稱與地址之間。 3. 圖形圖片塊:由各種線條構成的圖案,如單位的標識等。有時,圖片塊中包含字符或線條,本文將其與圖形塊和線條分開處理,因為圖片塊中的信息也是有用的。(3) 字符切分方法在名片信息分類過程中能夠根據文本信息和位置信息增加分類的準確率,然而如果字符識別準確率較低,致使該信息丟失了原有的使用價值。于是,為了提升整個名片識別系統的性能,增加字符信息的識別準確率是非常重要的一個環節。對于中文名片字符切
10、分往往包含對字符的粗切分和精細切分兩個方面: 第一,對字符行進行垂直投影,依據投影圖所獲得的空白間隙對單個字符做粗切分,粗切分操作時會存在避免不了的切分錯誤; 第二,對已切分的字符判斷類別;利用識別結果對字符進行精細切分,包括漢字部件的合并和粘連字符的重新切分。(4) 字符特征匹配方法將識別后的字符進行特征歸類,分離出名片中各信息項,從而完成信息的歸類與管理,然而對于較復雜的名片版面,采用已往的模板匹配方法進行信息分類很難達到實際的需求,則需要利用知識規則的理解進行判別。將圖像里包含的各個信息項的特征分離出來,提取字符特征進行特征匹配,與數據庫中的文字進行比對,最終完成中文名片文字的識別。 四
11、、期望實現的研究目標能夠對印刷體中文名片圖像進行有效預處理,對名片版面進行分析,對文本行進行字符切分,并最終識別中文名片的文字。五、主要技術指標1. 實現3種圖像預處理算法;2. 實現1種名片版面分析方法;3. 實現文本行的字符切分;4. 完成名片文字識別。六、進度和要求1-2周 查閱相關資料,了解畢業設計的基本內容;3-4周 了解圖像預處理、名片版面分析方法和中文字符切分方法;5-6周 完成3種圖像預處理算法;7-8周 完成1種名片版面分析方法; 9-10周 實現文本行的字符切分; 11-12周 實現一種字符特征提取方法和特征匹配方法;13-14周 完成名片文字識別;15-16周 撰寫畢業設
12、計論文;17周 完成畢業答辯。七、主要參考書及參考資料1 (美)岡薩雷斯. 數字圖像處理 MATLAB版(中文版). 電子工業出版社, 2009.12.2 于萬波. 基于Matlab的圖象處理. 清華大學出版社, 2011.6.3 何耘嫻. 印刷體文檔圖像的中文字符識別. 燕山碩士學位論文, 2011.4 金貞. 漢字特征提取及識別技術的研究. 上海交通大學碩士學位論文, 2010.5 郇政永. 基于OCR的中文文本校對研究. 北方工業大學碩士學位論文, 2011.6 索玉秀. 基于OCR技術的名片識別方法研究.哈爾濱理工大學碩士學位論文, 2015.7 武玉坤. 基于OCR技術的名片識別系統
13、的研究. 長沙理工大學碩士學位論文, 2008.8 H C Fu, C S Chen, K T Sun. Recognition of Chinese Business CardsC. Proc. of 5thOCR & DA conference,Hshinchu,Taiwan,1996, 169-1759 Yaw-Huei Chiou, His-Jian Lee .Recognition of Chinese Business CardsC. Proc. of 4th ICDAR, Ulm,Germany,1997, 1028-103210 X Lin, X Ding, Y Wu.
14、 Automatic Input System for Chinese Business CardsC. Proc. of 7th ICCPOL, Hong Kong,1997, 277-280指導教師意見: 簽名: 年 月 日開題評議小組成員: 開題評議小組意見:(包括對論文的選題、難度、進度、工作量、論文形式意見):1. 論文選題: 有理論意義; 有實用價值; 有理論意義與實用價值; 意義不大。2. 論文的難度: 偏高; 適當; 偏低。3. 論文的工作量: 偏大; 適當; 偏小。4. 進度: 可行; 不可行;5. 學生開題報告中反映出的綜合能力和表達能力: 好; 較好;一般; 較差。6. 論文形式意見: 可行; 不可行;7. 對論文選題報告的總體評價: 好; 較好; 一般; 較差。(在相應的方塊內作記號“”)組長簽名: 評議結論是否同意論文選題報告: 同意; 需重做(在相應的方塊內作記號“”) 評議小組組長簽名: 年 月 日學院意見教學副院長:年 月
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設計質量提升管理制度
- 診所義診項目管理制度
- 診所日常器械管理制度
- 試驗檢修設備管理制度
- 財務管理稅務管理制度
- 財政往來資金管理制度
- 貨場出庫日常管理制度
- 貨物進出登記管理制度
- 貨運碼頭現場管理制度
- 2025年中國防窺膜行業市場全景分析及前景機遇研判報告
- 蘇州市吳江區2021-2022蘇教版五年級數學下冊期末試卷真題
- 《紅樓夢》PPT課件(優秀)
- 新高考英語讀后續寫——故事編寫思路
- “363生態課堂”模式及流程
- (高清版)建筑工程風洞試驗方法標準JGJ_T 338-2014
- 鋼構車棚施工組織方案
- HP彩色激光打印機節能證書
- 最新煙葉儲存保管方法標準
- 《丹江城區普通住宅小區物業服務收費管理辦法》
- CYD-128(環氧樹脂)MSDS
- 3船舶操作手冊
評論
0/150
提交評論