




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、多媒體學習環境下視頻流中的文字提取系統的實現System of Character Detection from Video in Multimedia Learning Environment 袁靜 劉時進 石教學華中師范大學物理學院電子系,武漢,430079,電子郵箱:lsj 【摘要】 通常視頻流中的文字信息包含了該視頻的關鍵信息,而在多媒體學習環境中視頻信息是最主要的信息源。本文提出了一種針對視頻流中文字字符提取的新方法,實現了對視頻信息中關鍵幀的文字區域進行識別和對識別出的文字區域進行背景和噪聲濾波消減處理,最終將處理的結果二值化后通過文字識別系統(OCR)進行文字的識別。本文為視頻學
2、習信息的處理和多媒體資源庫的管理給出了新的解決方案。【關鍵詞】 多媒體學習環境、視頻信息、文字提取、文字識別Abstract: Usually, the text in videos presented important information, and videos are the most primary information source in multimedia learning environment. This paper presents a new method to automatically localize captions in video, and realiz
3、ed to recognize the localized Character Area and clean up the background and noise, then detection the character via the OCR. This paper gives a new solution of managing the learning information and multimedia resource store.Keywords: multimedia learning environment,video information,detection the c
4、haracter,recognize the character1 前言隨著教育信息化建設的發展,計算機多媒體與網絡技術在教育中的應用已日趨普及。通過多媒體技術、計算機技術和網絡技術,以學習者最容易接受的方式呈現信息;以最快捷的方式傳遞信息;以最符合人的思維規律和思維習慣的方式處理信息已成為當今現代教育技術應用研究的重要方向之一。在網絡技術高速發展、各種媒體信息大量涌現的背景下,為了實現對多媒體信息的高效訪問,多媒體信息處理和檢索技術也已成為人們急待解決的問題。由于多媒體技術在計算機教育應用中的特殊地位和特點,無疑這一技術將直接影響著CAI的深入開展。我們知道,視頻實際上是集圖像序列、圖像、文
5、字等為一體的、被人們廣泛使用的一種綜合性媒體,是多媒體中的主要組成部分。因此,多媒體信息處理和檢索技術的重點和難點就是視頻信息的處理和檢索。視頻是在時間上連續的一系列圖像幀的集合,是一種沒有結構的圖像流。我們可以把視頻看作一本沒有目錄和索引的書,那么一幅圖像幀就相當于書中的一頁。由于視頻這部書缺乏目錄和索引信息,我們就無法對它進行高效瀏覽和檢索,無法快速閱讀。為尋找感興趣的視頻片段,我們只能采取“快進”和“快倒”的耗時方式線性瀏覽。隨著數字視頻數據量迅速增加,傳統的“線性”瀏覽方式已遠不能滿足人們對視頻內容的訪問和查詢需求。用慣了文本搜索引擎的用戶越來越希望能在海量視頻庫中快速找到自己感興趣的
6、視頻片段,而視頻中的文字可以直接并且集中的描述視頻的各種信息,所以視頻中的文字識別可以更好地幫助人們分析和理解視頻中的內容,從而作為視頻信息處理和檢索的一種良好手段。目前已經涌現出了大量的在圖像和視頻流中提取文字的有效方法,這些從視頻流中提取文字的方法大致可以分為兩大類:一類是連接相似的區域法,這種方法的主要依據是視頻和圖像中的文字比較集中,并且和背景有不同的顏色。其特點是可以快速,準確地確定視頻中的文字,但是當遇到視頻中的文字被嵌入到復雜的背景中或者和其他的圖形對象相連接時,這種方法的效果就不是很理想了;另一類主要是基于紋理的分類的方法。這類方法的主要問題是比較難排除類似于文字的區域。鑒于此
7、,我們研究了一種從視頻流的關鍵幀中提取文字的區域并且分離出文字的新方法,并通過MATLAB 視頻圖像處理工具箱進行了仿真和實現,為多媒體學習環境中視頻信息處理和管理提供了一個良好的解決方案。2 系統的設計視頻流中的文字一般可以分為兩類:(1)場景文字: 文字是視頻場景的一部分,它們在視頻中的位置是隨視頻的鏡頭的改變而改變。(2)視頻標題文字:是在視頻后期制作過程中加入的文字。其中視頻標題文字一般攜帶著視頻內容的重要信息,并且它的內容一般也是經過設計的,位置一般固定。被識別的文字應該滿足以下一些特征:1)、這些文字一般是從左到右或者從上到下的矩形區域內部。2)、這些文字的顏色和背景的顏色有一定的
8、對比度。3)、字數要多余兩個文字,以保證文字區域的邊框一般寬度要大于高度。4)、文字的邊界線一般含有很多的邊框。根據上述分析,視頻流中的文字提取系統的基本結構框圖如圖1所示:圖1 視頻流中的文字提取系統基本結構框圖在系統結構中,文字區域識別和文字區域背景過濾是系統的關鍵組成部分。系統的工作流程是:首先提取視頻中的關鍵幀;然后進行文字區域的識別,其方法是基于紋理分析的方法,其目的是產生一個單邊框的矩形區域將要識別的文字包含到其中;其次進行文字區域濾波處理,具體算法如圖2所示;最后用OUP OCR 作為系統的OCR 引擎,這個引擎可以將二值化的文本圖像作為輸入,將識別出來的文字的ASCII 作為輸
9、出,整個引擎準許將它提供的接口方法集成到系統中,從而識別中文簡體(印刷),數字(印刷),英文(印刷)。圖2: 文字區域濾波子系統系統關鍵技術的實現3.1邊緣提取:提取圖形中對象的邊緣提取邊緣就是在保存圖像邊緣信息的同時,慮除掉沒有信息量的冗余數據。SOBEL邊緣算子是常用的邊緣提取的方法,其基本原理是:圖像中的每個點都用以下這個兩個SOBEL核算子(如圖3所示)做離散二維卷積。設一幅二維的灰度圖像用I(x,y)表示圖像中任意一點的值,其中(0<x<W:圖像的寬度,0<y<H圖像的高度),設這兩個算子分別為S1和S2如圖3所示,邊緣的二值圖像矩陣為H。H1(i,j) =
10、(I(m,n)*S1(i-m,j-n);H2(i,j) = (I(m,n)*S2(i-m,j-n);H(i,j) = max(H1(i,j),H2(i,j);使用Matlab 語言描述這個算法為:H = edge(I,'sobel'),即圖2中的邊緣提取部分具體實現,其中I表示圖像的灰度圖像。可以這樣理解這個卷積:一個核通常對垂直邊影響最大而令一個對水平邊緣的影響最大。兩個點的最大值作為該點的輸出值。運算的結果是H(i,j)一幅邊緣幅度圖像,如圖4(上中)所示。圖3 SOBEL 邊緣算子核3.2 噪聲過濾:使用中值濾波去掉噪聲,同時保留文字的邊緣。如圖4(上中)所示,除了圖片中
11、的非邊界的點為噪聲外,非文字的邊界區域因為沒有文字的紋理特征都可以認為是噪聲。中值濾波就是圖像中的輸出是由鄰居象素的中值來確定的,但不是平均值。即中值濾波對極值并不明顯,而均值則不同。所以中值濾波更適于圖像中有明顯變化的情況。由于漢字的邊界圖型一般有比較強的變化頻率。所以文字區域做中值運算后,要比頻度變化比較小的區域整體被過濾較少。而同時由于零星分布的點的臨近點一般為0,所以也可以被過濾掉。使用 Matlab 語言描述這個算法為: L = medfilt2(H,a,b);即圖2中的中值濾波的具體算法;其中 L 代表輸出的矩陣,H 為邊緣矩陣,a,b做中值運算時的臨近區域的象素區域的大小。我們的
12、系統使用的參數時a=4,b=3。這兩個值和解析的文字高度的大小由一定的關系。3.3 連接文字區域:使用基本形態學的閉運算形態學中的運算有膨脹和腐蝕。膨脹是將與某物體接觸的所有的背景點合并到該物體中的過程。過程的結果是增大了相應數量的點。表示為D= B+S, B為原圖像,S膨脹系數,+表示膨脹運算。腐蝕是消除物體所有邊節點的過程,其結果使剩下的物體沿其周邊比原物體小了被腐蝕掉了象素的面積。 表示為D= B*S ,B為原圖像,S腐蝕系數,*表示腐蝕運算所謂的閉運算就是:先膨脹后腐蝕。它具有填充物體內部的小的空洞。連接相連臨近的物體,在不明顯改變物體面積的情況下平滑其邊緣的作用。表示為 (B*S)+
13、S。Matlb 語言描述如下: se = strel('square',a);LC = imclose (L,se);a為腐蝕,膨脹元素數。 Square代表矩形腐蝕與膨脹。即圖2中的閉運算。3.4過濾非文字區域:使用基于形態學的開運算所謂的開運算是 先腐蝕后膨脹的過程,它具有消除細小的物體,在纖細點處分離物體和平滑較大的物體的邊界但不明顯改變邊界的作用。運算表示為:(B+S)*S。Matlb 語言描述如下: se = strel('square',a);LC = imopen (L,se); a為腐蝕,膨脹元素數。 Square代表矩形腐蝕與膨脹。即圖2中的開
14、運算。當背景中散落一些小的噪聲物體時,連續的開和閉運算可以顯著的改變這種情況。圖4 <<探索發現機器人時代>>的一個關鍵幀(上左);關鍵幀的邊框(上中);邊緣圖像經過中值濾波以后(上右);經過閉操作后(下左);經過開運算后(下中);關鍵幀中文字區域被識別出來(下右)3.5文本區域的確定確定文字區域時候,我們使用了MATLAB提供的圖形圖像處理工具箱,將文字區域的進行矩形處理后尋找每個矩形區域的四個邊界的頂點,然后將這四個頂點鏈接成矩形區域后剪切下來如圖5被剪切下的原始文字區域。3.6文字和背景的分離經過前面的處理,圖片中的文本已經包含在了一個矩形區域中,這些區域很可能有
15、復雜的背景,而現有的OCR 系統是不可能在這樣的情況下提取文字的,必須將它們轉換為二值的圖像。因此,需去掉復雜背景,留下文字。在處理連續的二值圖像時,自適應門限濾波是一種非常好的去掉背景和噪聲的方法。文本區域中一般包含的文本有相同的密度。這樣的區域很適合自適應門限濾波方法。我們使用被修正的Niblack算法78。在每一點上算出一個臨界值,如果這點的值大于臨界值就編成1,否則編成0,這個算法的關鍵在于門限值的計算上。首先用一個40*40 的區域在整個圖形上移動,同時計算平均值和標準差,下面的等式就是計算臨界值。 T=(1-a)*m +a*M+a*(s/R)*(m-M)其中:m:是在這個窗口中的灰
16、度級的均值 s: 是這個窗口的灰度級的標準差 M :是整個圖像的最小的灰度級的值 R :是整個窗口的標準差的最大的值建議使用的 a 的值是 0.589,由于分離的是文字,根據文字的特點,我們使用了不同的a值,最后發現a是1.5最符合我們的需要。圖5 被剪切下的原始文字區域和被濾波的圖像4 系統的測試系統測試采用的是MATLABR14SP2 視頻圖形處理工具箱,它是MATHWORKS 公司于2005年6月發布的處理視頻的工具箱,可用來快速設計、仿真、構建與驗證各種視頻和圖像的算法與系統。這個工具箱的另一個特點是它所生成ANSI/ISO C 代碼可以直接用于可編程處理器(如:DSP 或者 GPP)
17、中。為了測試本系統的工作的情況,我們使用了中央電視臺的新聞聯播的一段視頻和探索發現機器人時代的兩段視頻。測試結果表明:該系統不受字體的顏色、文字大小和語言種類的限制,不但能夠識別人工添加的文字,還能識別背景中的文字。但對于類似于文字的區域,系統會錯誤的認為是文字區域,其次是有一定傾斜角度的場景文字不能被識別出來。具體的測試結果如下所示:視頻片斷實際文字區域識別的文字區域文字區域識別率文字識別率視頻11259676.8%63%視頻220615675.7%58%視頻3685682.3%72%表1 文字區域與文字的識別的結果由此可見,系統對文字區域的識別準確率較高,但對文字的識別率比較低,這主要是O
18、CR對某些字庫的識別率很低的原因和分離出的文字太小或者過大的緣故。5 總結綜上所述,本系統實現了在視頻中定位,截取并且分離文字的有效方法。從識別文字區域的結果中可以分析出識別的效果還是不錯的,但在通過OCR 系統后就不是很理想了。可以預期,如果采用更好的OCR 系統就可以提高整個系統的性能。后續的工作是把提取出的文字用MPEG7進行編目,為視頻的檢索提供一種有效的方法。從而為多媒體學習環境中視頻信息處理和管理提供了一個良好的解決方案。參考文獻1 W. Qi et al. Integrating visual, audio and text analysis for news video. Pr
19、oc. Int. Conf. Image Processing (ICIP 2000), Vancouver, BC, Canada.2 A. K. Jain and B. Yu. Automatic text location in images and video frames. Pattern Recognit. vol. 31, no. 12, pp. 20552076, 1998.3 R. Lienhart and A. Wernicked. Localizing and segmenting text in images and videos. IEEE Trans. Circuits Syst.Video Technol
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司登山自駕游活動方案
- 公司短期旅游活動方案
- 2025年信息技術與產業發展考試試卷及答案
- 2025年心理醫生職業倫理考試試卷及答案
- 2025年生命科學基礎知識考試試卷及答案
- 2025年健康管理與慢性病防控考試試題及答案
- 2025年科技創新與知識產權管理考試試題及答案
- 2025年家庭教師資格考試試卷及答案
- 2025年護理學課程公共衛生防疫基礎知識考試試卷及答案
- 2025年非營利組織發展助理考試試題及答案
- 2024年垂直升降貨柜項目可行性研究報告
- 2023年貴州貴州貴安發展集團有限公司招聘考試真題
- 公司責任與權力分配管理制度
- 甘肅電投集團筆試試題
- 部編版四年級語文閱讀訓練20篇專項專題訓練帶答案解析
- 大講堂之 第五講 大一統與中華民族的初步形成秦漢時期《中華民族共同體概論》
- 2019版CSCO黑色素瘤指南
- 企業數智化能力成熟度模型(EDMM)標準體系解讀
- 2024關于深化產業工人隊伍建設改革的建議全文解讀課件
- SOR-04-014-00 藥品受托生產企業審計評估報告模板
- 2024年保健按摩師(初級)職業技能鑒定考試題庫(含答案)
評論
0/150
提交評論