基于內容的視頻分析與檢索_第1頁
基于內容的視頻分析與檢索_第2頁
基于內容的視頻分析與檢索_第3頁
基于內容的視頻分析與檢索_第4頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、摘要文章簡要介紹了從基于內容的視頻分析與檢索問題的提出到所涉及的關鍵技術以及目前研究狀況,并簡要介紹了現階段在這方面的研究熱點及以后要做的工作。一、問題的提出:互聯網的出現給人類帶來了很大的便利,特別是實現資源共享之后的互聯網,但面對這浩如煙海的資源到底哪些是對自己有利用價值的呢?而90年代以來,多媒體技術和網絡技術的突飛猛進,人們正快速的進入一個信息化社會。現代技術已能運用各種手段采集和生產大量各種類型的多媒體信息數據,出現了數字圖書館、數字博物館、數字電影、可視電話、交互電視、會議電視、點播視頻服務、遠程教育以及遠程醫療等多種新的服務形式和信息交流手段,在眾多的多媒體信息中最大也是最主要的

2、一種就是視頻信息,人類接受的信息約有70豚自視覺,視頻所攜帶的信息量遠遠大于語音和數據。在視頻信息高度膨脹的今天,隨之而來的問題就是對海量視頻信息的高效檢索和瀏覽,即人們如何快速有效地查看大量的視頻信息,并從中找出自己感興趣的內容。傳統的視頻信息檢索方案是使用文字標示符進行檢索,具體到對視頻幀的查詢是借助對幀圖像的編號和注釋來進行的,首先給幀圖像加上一個對其描述的文字或數字注釋,然后在檢索時對注釋進行檢索,這樣一來對幀圖像的查詢就變成了基于注釋的查詢。這種方法雖然簡單,但不能完全滿足對視頻數據檢索的需要,首先視頻數據量很大,用手工方式添加注釋工作量很大,而且效率很低;其次視頻內容豐富很難用文字

3、標簽完全表達;再次文字描述是一種特定的抽象,特定的標簽只適合特定的查詢;最后文字標簽是靠觀察者加上去的,因此受主觀因素的影響,不同的觀察者可能有不同的描述。從而需要一種客觀全面的視頻自動檢索方法,基于內容的視頻檢索(Content-BasedVideoRetrieval,CBVR亞運而生。它根據視頻的內容及上下文關系,對大規模視頻數據庫中的視頻數據進行檢索。提供這樣一種算法:在沒有人工參與的情況下,自動提取并描述視頻的特征和內容。區別于傳統的基于關鍵字的檢索手段。融合了圖像理解、模式識別、計算機視覺等技術。近年來隨著多媒體信息在娛樂、商業、生產、醫學、安全、國防、軍事等領域的大量應用,基于內容

4、的視頻檢索技術己經成為近年來國內外研究的熱點問題研究視頻數據的高效分類、處理和索引技術,建立和完善視頻信息的快速瀏覽檢索機制,開發功能強大、使用便捷的視頻信息瀏覽檢索系統,既具有極大的理論價值,也具有巨大的應用潛力。二、解決方案:視頻標注:視頻標注是通過人工的方式將某一段視頻進行主觀的屬性標注,然后以文本的方法進行檢索。視頻標注技術己相當成熟,但有其固有的不足,第一,要人工手動完成,工作量極大,且效率很低。第二,某些視頻和感知特征很難用文字來描述。第三,主觀性很強,沒有統一的標準,不同的人對同一段視頻有不同的理解,必然導致不同的標注結果。視頻摘要:視頻摘要以自動或半自動的方式,從原視頻中提取有

5、意義的部分,將它們合并而成的緊湊的、能充分表現視頻語義內容的視頻概要。視頻摘要技術也有一定的發展,同時給基于內容的視頻檢索提供了思路,但與真正的基于內容的視頻檢索有一定的距離。基于非壓縮域的視頻內容檢索:基于非壓縮域的視頻內容檢索是以視頻的低層特征為基礎進行分析,特征提取等,最后以視頻的本質特征為檢索依據,完全實現檢索的自動化。基于非壓縮域的視頻內容檢索己有相當的研究成果,但由于其所有算法均要在完全解壓的基礎上進行,而視頻數據不但數據量很大,而且運算量也很大,所以在具體實現時并不理想。基于壓縮域的視頻內容檢索:基于壓縮域的視頻內容檢索是在不完全解壓或不解壓的前提下以視頻流的低層特征為基礎進行分

6、析、特征提取等,最后以視頻的本質特征為檢索依據,完全實現檢索的自動化。由于基于壓縮域的視頻內容檢索在沒有解壓或沒有完全解壓的前提下進行,所以其優點是:第一,大大減小了數據量,第二,減少了數據運算量,從而大大提高了系統的效率。三、國外研究現狀:1、QBIC是舊M研究中心開發的基于內容的檢索系統,它是第一個功能齊全的視頻數據庫系統,也是基于內容檢索系統的典型代表,對視頻數據庫發展有較遠的影響。QBIC系統支持示例查詢和用戶草圖查詢,抽取顏色、紋理、形狀特征、以及鏡頭和目標運動等信息,并采用R-tree作為高維索引結構,進而結合關鍵字對大型圖像和視頻數據庫進行檢索。2、Informedia數字視頻庫

7、工程是卡耐基梅隆大學(CMU關于數字視頻媒體的處理與管理的一個重大項目,是較為完整的基于內容視頻分析原型系統的先驅。該系統率先將數字音頻處理技術和文本處理技術運用到基于內容視頻分析中,通過語音識別和文字識別獲取視頻語義、輔助視頻分段、抽取有意義的視頻片段生成視頻摘要,支持自動的全方位的視頻信息查詢,以支撐基于內容的視頻瀏覽、檢索和服務。3、videoQ是一套全自動的面向對象的基于內容的視頻查詢系統,是由哥倫比亞大學的圖像與高級電視實驗室研制的一個原型系統。它拓展了基于關鍵詞或主題瀏覽的傳統檢索方式,提出了全新的基于豐富視覺特征和時空關系的查詢技術,可以幫助用戶查詢視頻中的對象,其目的在于探究視

8、頻中潛在的所有視覺線索并用于面向對象的基于內容的視頻查詢。目前VideoQ支持著一個巨大的視頻數據庫,同時,VideoQ又是一個面向Web勺視頻搜索系統。4、visualSEEK是一個視覺特征查詢系統,WebSEEK一個面向WWW文本/圖像/視頻查詢系統,它們是由哥倫比亞大學開發的。visualSEEK/WebSEEK勺主要特點是根據圖像區域的空間關系檢索和從壓縮域提取的視覺特征,它們采用的視覺特征是顏色集和基于小波變換的紋理特征,為了加快檢索速度,使用了二叉樹索引算法。這套系統具有某些概念強大的模塊:基于內容的圖像檢索概念、根據用戶相似度反饋的查詢優化、視覺信息的自動提取、查詢結果視頻/圖像

9、的縮微表示、圖像/視頻的主題瀏覽功能、基于文本的查找、對查詢結果的操作等。5、CVEPS!COLUMBIA:學開發的視頻檢索和操作系統的軟件原型,支持自動視頻分割,基于關鍵幀和對象的視頻檢索和壓縮視頻編輯。6、JAKOB1意大利Plerm大學開發的視頻數據庫查詢系統,該系統通過鏡頭提取器把視頻數據分割成鏡頭,從每個鏡頭中選取一些具有代表性的幀。根據顏色和紋理描述這些代表幀,然后計算與這些短序列相關的運動特征并給出一個動態描述。當向該系統提交一個查詢或是例子直接查詢時,查詢模型會對它做出解釋,排列好匹配參數,給出最相似的鏡頭。用戶可以瀏覽這些結果,必要的話,改變參數,反復地進行查詢。7、viSI

10、ON是KANSAS:學開發的數字視頻圖書館原型系統,在該系統中綜合了視頻處理和語音識別,根據基于視頻和音頻內容的兩段式算法,自動把視頻分成大量具有邏輯語義的視頻剪輯,在系統中加入標題譯碼器和字指示器提取文本信息,通過他們索引視頻剪輯。8、gnalgle足球視頻搜索引擎是Alllsterdam大學開發的足球視頻分析系統。該系統基于web應用,具有樹型結構框架。用戶可以很方便的找到如進球,黃牌,紅牌警告,換人,或者搜索到特殊的球員。9、Rochester大學的體育視頻分析系統,能較好的對體育比賽視頻進行物體目標和事件的檢測,并且最終形成精彩鏡頭的視頻摘要,該系統已用于2004年奧運會,將足球比賽視

11、頻處理,傳送到用戶的手機上。四、國內研究現狀:1、Tv-FI(TsinghuaVideoFindIt)是由清華大學開發的視頻節目管理系統,功能包括:視頻數據入庫,基于內容的瀏覽、檢索等。2、iVideo是由中國科學院計算技術研究所數字化技術研究室開發的視頻檢索系統,是一套基于J2EE平臺的具有視頻分析、內容管理、基于Web僉索和瀏覽等功能的視頻檢索系統。3 、Videowser是由國防科技大學胡曉峰教授和李國輝教授主持的研究組所開發的原型系統。該研究組的研究工作主要集中在視頻的結構分析方面,他們對鏡頭分割、關鍵幀提取和鏡頭聚類等問題進行了研究和探討,最近該研究組開始了對音頻特征提取和檢索方面的

12、研究。以及多媒體研究中心和系統工程系研究開發出了新聞節目瀏覽檢索系統伽(NewVideoCAR)和多媒體信息查詢和檢索系統。4 、浙江大學潘云鶴院士和莊越挺教授研究組主要針對視頻檢索和視頻相似度衡量等問題進行的研究,提出了基于鏡頭質心特征向量的視頻相似度衡量方法,從而提供了一種從圖像序列特征方面來進行視頻檢索的方法。另外,該研究組還試圖從視頻流中的閉路(Closed-Caption)中提取信息來進行視頻檢索。5 、北京大學高文教授主持的研究組主要進行在復雜背景下的人臉檢測與跟蹤系統方面的研究,他們設計并實現了一種基于特征子臉(EigenSubface)的人臉檢測與跟蹤系統,它首先利用模板匹配的

13、方法進行粗檢測(利用一種灰度分布的人臉模板),并在此基礎上收集有效的反例樣本集(非人臉樣本集),來提高識別的精度。目前該研究組正在進行綜合音頻特征和圖像序列特征的唇讀(Lip-reading/Speech-reading)研究。6 、Ifind信息檢索系統是微軟亞洲研究院的張宏江博士所帶領的小組研制出的系統,取得的成果最為突出。五、關鍵技術第一部分為鏡頭分割,第二部分為關鍵幀提取,第三部分為基于特征的視頻索引與存儲組織。鏡頭分割:鏡頭分割的主要思想為依據兩幀圖像的特征值的差值與給定閡值進行比較,如果差值大于給定的閡值,說明兩幀的特征變化較大,可以認為兩幀為不同的主題,在此兩幀之間進行鏡頭分割;

14、如果差值小于給定的閡值,則說明兩幀的特征變化較小,可以認為兩幀為同一主題,可以繼續進行下兩幀的比較170特征提取:視頻特征主要包括文本特征、聲音特征和圖像特征。從基于內容的角度來說,文本特征指的是由視頻內容本身抽取出來的文本信息,主要是自動語音識別(ASR)和視頻字符識別(VOCR)勺結果。自動語音識別和視頻字符識別所得到的文本信息可以像傳統文本那樣抽取特征和進行索引。基本的聲音特征包括全局和局部的頻譜信息,在此之上還可以獲得響度、音調、亮度、帶寬、調合性等信息,或者是安靜、語音、音樂、汽車、爆炸等分類信息。基于這些信息,人們可以進行基于聲音的檢索或者過濾。由于圖像是視頻中不可或缺的要素,同時

15、圖像檢索已經有了相當長時間的研究,所以圖像特征的研究較為廣泛。對一個鏡頭,一般先根據某種標準來選取一個或幾個關鍵幀,然后再對關鍵幀提取圖像特征。常用的圖像特征包括顏色、紋理和形狀,這是當前基于內容的圖像和視頻檢索中最常用的特征。近幾年來,語義概念特征成為研究的熱點。語義概念特征是指對視頻的語義層次上的描述特征。它是通過機器學習的方法,利用文本、聲音和圖像等特征來自動建模和抽取的。語義概念特征能夠允許人們自然地在語義層次上進行檢索,同時對更有效的瀏覽也有很大的幫助。自動檢索:在自動檢索中,用戶的有效的查詢輸入是第一個問題,盡管它往往被簡單地忽略。大多數基于內容的視頻檢索系統假定用戶的查詢輸入為示

16、例圖片,當文本特征存在時,用戶可以用文本做輸入,以視頻片斷為輸入的系統很少見,這種輸入方式實際上并不是很現實和有效,因為用戶不一定能找到合適的示例圖片,而文本特征在基于內容的視頻檢索系統中并不總是存在的7。對用戶給出的查詢,基于抽取出來的特征,最常用的檢索方法就是文本檢索(文本特征、語義概念特征),相似性檢索(聲音、圖像特征、語義概念特征)和基于機器學習的檢索(聲音、圖像特征、語義概念特征)。高維索引技術:許多檢索算法的實驗數據僅僅幾百個或上千個,雖然采用順序搜索,但感覺不出檢索的響應時間。而對于大型媒體庫,則肯定需要建立索引,因此,需要研究新的索引結構和算法,以支持快速檢索。目前,一般采用先

17、減少維數,然后再用適當的多維索引結構的方法。雖然過去己經取得了一些進展,但仍然需要研究和探索有效的高維索引方法,以支持多特征、異構特征、權重、主鍵特征方面的查詢要求2。六、展望目前國際標準化組織正致力于研究基于內容的編碼,它將編碼與基于內容的檢索應用緊密地聯系起來。MPEG-但開始在一定程度上考慮基于內容檢索的一些特點。目前,MPEGS準組織正致力于制定和完善多媒體內容描述標準MPEG-7其目標是要制定一個標準化的多媒體內容描述的框架,以便于實現多媒體內容的有效表示和檢索。MPEG-7A視聽內容描述的不同的角度定義了一系列的方法和工具。從總體上講,研究者們己從CBV陳統的不同技術著手,取得了相

18、應的成果。大部分研究沿襲了計算機視覺、模式識別、數據庫索引等領域的研究思路,在研究更符合基于內容的視頻檢索自身特點的技術方面也取得了一些進展,如相關反饋、語義特征提取等。但這些研究還遠不能滿足實際應用的需要。所以今后很長一段時間內還有很多工作要做:(1)選取更為有效的視頻特征。現有的顏色、紋理等特征還不能有效表示視頻的內容。為了提高鏡頭和場景視頻特征,在這些特征的選取過程中,可以結合用戶反饋,通過機器學習自動完成。(2)多特征融合檢索技術。目前的研究大部分集中在可視媒體,尤其是圖像和視頻方面。但我們生活的信息環境是全方位的,多媒體信息還包括典型的音頻媒體,以及圖形、動畫等媒體。隨著信息化進程的

19、深入,這些媒體數據將會越來越多,不可避免要面臨檢索問題。即需要對數字音頻、語音和音樂進行基于內容的檢索,對合成媒體如動畫、VRM!據進行檢索等。在研究單一媒體的檢索同時,注意研究多種媒體的互相關聯和互補關系,以提高檢索算法的效率。(3)視頻相關反饋。CBV陳統的一個重要特征就是信息獲取過程的交互性,同時用戶查詢接口智能化是今后發展的一大趨勢。查詢接口應提供豐富的交互能力,為用戶在主動的交互過程中表達對媒體語義的感知,調整查詢參數及其組合,最終獲得滿意的查詢結果。研究主要涉及如何轉換用戶的查詢表達到可以執行檢索的特征矢量,如何從交互過程中獲取用戶的內容感知以便選擇合適的檢索特征等問題6。(4)在

20、鏡頭檢測方面。經過多年的發展,基于內容的視頻檢索技術在鏡頭的檢測上已經取得了一定的進展,很多不同的算法被提出來,但是還有一些不完善的地方需要改進,特別是在鏡頭漸變檢測方面由于鏡頭漸變類型很多而且很復雜,要完全準確檢測出漸變鏡頭還有很多工作需要去做。(5)人機交互功能。視頻檢索系統最終的功能是給人提供一個方便的檢索平臺,因此一個人性化的人機交互平臺是必不可少的。例如多種的輸入手段、靈活的交互手段、有效的反饋機制等等,都是一個人性化的檢索系統所必需考慮的,一個檢索系統在人機交互上的好壞將是系統性能很重要的方面,在這方面也有很多需要我們去研究的工作。(6)性能評價指標。目前對視頻檢索系統性能的評價還沒有統一的標準可以遵循,而且檢索系統的性能應考慮系統已具有或者應具有的各種性能。對于基于內容的視頻檢索系統,不僅搜索功能很重要,其他如瀏覽,組織和數據挖掘等方面的能力也很重要,所以對系統的衡量一定要全面。這方面的研究也正成為研究的熱點,也有很多工作值得我們去做。(7)基于壓縮域的檢索。視頻壓縮技術的發展勢頭是非常迅猛的,尤其目前以HDTV為代表的壓縮技術己經與市場緊密結合,影響日益擴大。視頻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論