數字音視頻處理 課件 第8章 基于內容的音頻、圖像、視頻檢索技術_第1頁
數字音視頻處理 課件 第8章 基于內容的音頻、圖像、視頻檢索技術_第2頁
數字音視頻處理 課件 第8章 基于內容的音頻、圖像、視頻檢索技術_第3頁
數字音視頻處理 課件 第8章 基于內容的音頻、圖像、視頻檢索技術_第4頁
數字音視頻處理 課件 第8章 基于內容的音頻、圖像、視頻檢索技術_第5頁
已閱讀5頁,還剩136頁未讀, 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第8章

基于內容的音頻、圖像、

視頻檢索技術8.1多媒體信息檢索概述8.2基于內容的音頻檢索8.3基于內容的圖像檢索技術8.4基于內容的視頻檢索技術8.5本章小結

8.1多媒體信息檢索概述

8.1.1信息檢索信息檢索泛指用戶從包含各種信息的文檔集中查找所需要的信息或知識的過程。信息檢索從手工建立關鍵字索引的檢索,發展到計算機自動索引的全文信息檢索,直到現今的基于各種特征描述的,甚至是多種模態(如圖像、視頻和音頻等)下的信息檢索。檢索方法也從簡單地查找關鍵詞發展到現在各種復雜的檢索算法并存的局面。信息檢索包括對信息的表示、存儲、組織和訪問等各個環節。

不同于以往的數據檢索,信息檢索既不具有明確的條件定義(如正則表達式等),也不具有良好的結構性和非歧義性;相反,它具有一定的容錯性和基于任務的導向性。信息檢索的基本處理框架如圖8-1所示。

圖8-1信息檢索的基本處理框架

8.1.2多媒體信息檢索

多媒體信息檢索是指從各種不同種類的復雜媒體資源中尋找所需要的信息或知識的過程,它是信息檢索中非常重要的組成部分。與傳統的信息檢索相比,多媒體信息檢索主要有兩方面的不同。

首先,多媒體資源的結構比起以往典型的文本數據而言更為復雜,需要對大量高維數據進行處理,因此這就需要“多媒體數據處理系統”來表示、存儲和訪問它們。

其次,多媒體資源的檢索是基于相似度比較的,因此它的輸入、輸出方式都是多模態的,不再是以往純文本的輸入、輸出方式,這就需要對查詢需求等提出更高的要求,如MPEG-7就提出了非常詳盡的多媒體描述方法。多媒體信息檢索的基本框架如圖8-2所示。它包括多種媒體資源,常見的如圖像、音樂、影視和動畫等。

圖8-2多媒體信息檢索的基本處理框架

最為流行的檢索就是基于內容的檢索,基于內容的檢索主要有以下類型。

1)文本檢索

文本檢索通過關鍵詞進行標引,并采用傳統的數據庫技術來實現管理和檢索。然而,關鍵詞標引工作量大,而且標引同用戶的檢索概念不一致,導致查準率和查全率較低。因此,就需要直接對文本進行任意詞和字的檢索。根據實現方法的不同,其檢索技術可分為串搜索、串匹配和全文檢索,它們以字、詞及其邏輯組合為條件進行查詢。

2)音頻檢索

音頻檢索利用聲學和主觀的特性來進行查詢。聲音的一些感知特性,如音調、響度和音色等,與音頻信號的測量屬性非常接近,因此,可在音頻數據庫中記錄這些特征,并利用這些特征進行示例和特定特征值查詢。

3)圖像檢索

圖像檢索主要依據圖像的顏色、紋理、形狀特征以及圖像中子圖像的特征進行檢索。其中包括:顏色查詢幫助用戶查到與用戶所選擇的顏色相似的圖像;紋理查詢則幫助用戶查到含有相似紋理的圖像;使用形狀查詢的用戶選擇某一形狀或勾勒一幅草圖,利用形狀特征(如區域、主軸方向、矩、偏心率、圓形率和正切角等)或匹配主要邊界進行檢索;圖像對象查詢是對圖像中所包含的靜態子對象進行查詢。

4)視頻檢索

視頻可用場景、鏡頭、幀來描述。幀是一幅靜態的圖像,是組成視頻的最小單元。鏡頭是由一系列幀組成的一段視頻,它描繪同一場景,表示的是一個攝像機操作、一個事件或連續的動作,而一個鏡頭則是由一個或多個關鍵幀表示的。場景包含多個鏡頭,針對同一批對象,拍攝的角度不同,表達的含義也不同?;陉P鍵幀的檢索對代表視頻鏡頭的關鍵幀進行檢索。關鍵幀的獲取可以采用與圖像檢索相似的方法。一旦檢索到目標關鍵幀,就可以播放這些關鍵幀來觀看它所代表的視頻片段了。

8.2基于內容的音頻檢索

音頻信息按內容可以分成語音類和非語音類,非語音類又包括音樂、音效、非規則聲音等。語音是人類發出的含語義內容的聲音,含有字、詞、語法等語素,是一種高度抽象的概念交流媒體;而音樂是人聲和(或)樂器聲響等配合所構成的一種聲音,具有節奏、旋律或和聲等語義要素。按照存在的形式,音頻信息還可以分為靜態音頻信息和動態音頻信息。

靜態音頻信息是指那些以某種格式保存在文件或數據庫中,且可一次性全部獲取的音頻數據,如以WAV格式保存的語音數據、以MP3格式保存的歌曲等。

動態音頻信息是指以數據流的形式出現的、不可預知的音頻信息,即實時音頻流信息,如廣播、電視節目伴音、通信會話中的語音以及網絡流媒體中的音頻流等。

不同類型的音頻具有不同的音頻內容。從整體來看,音頻內容可分為四個級別:最底層的物理樣本級、中間層的聲學特征級、感知特征級和最高層的語義級,如圖8-3所示。

圖8-3音頻內容的級別

8.2.1國內外研究現狀

國內的一些研究單位已相繼開展了基于內容的音頻檢索研究,并開發了一些實驗系統。主要有浙江大學人工智能研究所對基于內容的音頻檢索、廣播新聞分割等領域進行了深入的研究。中科院聲學所信利語音實驗室在語音的分類和檢索、哼唱檢索方面也進行了較為深入的研究,并開發出了相關產品。清華大學計算機科學與語音實驗室在語音方面開展了相關研究工作。

從目前的研究狀況來看,基于內容的音頻檢索,一般分為音頻特征提取、音頻識別分類和檢索三個過程。在提取音頻特征之前,一般還需要對音頻數據進行預處理,預處理主要包括預加重和加窗,預加重提高音頻高頻部分抗干擾能力,加窗使音頻數據形成音頻幀。預處理是音頻檢索的基礎。特征提取是提取音頻的物理、聽覺或語義特征,是以音頻幀為單位或者以若干個幀組成的音頻片段為單位來進行。音頻識別和分類是對音頻進行歸類劃分,分類本身可以是一種檢索方式,也可以作為檢索的一個輔助手段。

一般來說,分類越精確,檢索就越準確。檢索的過程是一個匹配的過程,根據音頻特征間的相似度給出檢索結果。檢索系統一般分為兩部分:一部分是生成數據庫,即音頻數據及其特征錄入到數據庫;另一部分是查詢數據庫,即用戶通過輸入音頻或特征字符串在數據庫中查找所需要的音頻?;趦热莸囊纛l檢索系統的基本結構如圖8-4所示。

圖8-4基于內容的音頻檢索系統的基本結構

下面以三種類型的音頻檢索為例對國內外的部分研究工作進行介紹。

1.音頻分類及相似類別的檢索

音頻分類是根據音頻的相關特征將不同內容的音頻劃分為若干個類別,類別相同的音頻即為相似音頻。分類方法也是一種檢索方法。

Liu將音頻數據分割成不同的片段,使用高斯混合模型(GaussianMixtureModel,GMM)對片段的MFCC特征的數值分布進行參數估計,這些參數構成片段的特征向量,然后對特征向量進行聚類。查詢時,采用同樣的方式對查詢音頻分段建立高斯模型,并根據查詢音頻與數據庫中各聚類中心的距離,在數據庫中檢索相似音頻數據。

2.基于聲學特征描述的相同內容檢索

相同內容的音頻在聽覺特性上往往具有相似性。這種類型的檢索稱為音頻例子檢索。柏野(Kashino)和史密斯(Smith)研究了基于特征直方圖的音頻例子檢索。拉維亞(Lavia)采用過零率(ZeroCrossingRate,ZCR)及其一階、二階差分作為特征,提出了一種稱為活動搜索的直方圖快速搜索方法。

克里斯汀(Christian)等人開發了音頻檢索系統Soundspotter。Soundspotter系統采用MFCC特征,對五種匹配搜索方法進行了比較研究:

直接使用MFCC特征進行軌跡匹配;

用MFCC特征經自組織映射后形成的軌跡進行匹配;

直接使用MFCC特征和動態時間規正(DynamicTimeWarping,DTW)算法進行匹配;

將MFCC特征經聚類后進行字符串匹配;

⑤MFCC特征經聚類后用直方圖進行匹配。

3.基于語義級描述的樂曲語音檢索

1)樂曲檢索

在檢索方式上,樂曲檢索可以采用哼唱檢索(QueryByHumming,QBH)、節拍拍打檢索(QueryByTapping,QBT)、演奏輸入檢索(如使用MIDI鍵盤等)和樂譜錄入檢索(如直接輸入音符序列)等多種方式。

2)語音檢索

語音檢索(SpeechRetrieval)是文檔庫為語音文件的一種信息檢索方式,目的是從大量語音文件中找到與查詢相關的一系列語音文件,并且會根據文件與查詢的相關度大小進行排序。文本形式的信息檢索技術已趨于成熟,然而語音文件形式的信息檢索才剛剛起步。與文本形式的信息檢索不同的是,語音文件無法直接與查詢詞進行對比,語音文件必須通過語音識別轉換成內容特征,如關鍵詞、音節串和文字等。

統計語言建模(StatisticalLanguageModeling,SLM)技術是指基于概率的模型并利用統計學和概率論的知識對自然語言進行建模,從而捕獲自然語言中的規律和特性,以解決語言信息處理中的特定問題。

對于中文語音文件建立索引的特征,一般來說有三種:以詞為基礎(Word-based)、以字為基礎(Character-based)和以音節為基礎(Syllable-based)。根據之前的研究,對于西方語言如英文,通常以詞為基礎的索引特征會比其他兩者有較好的索引率;而對于中文而言,以音節為基礎的索引特征會有比較好的效果。以詞為基礎的索引特征會提供較多的語義信息,而以音節為索引特征,在處理語音識別時更具有魯棒性,因此,近幾年來有學者提出將這兩種檢索特征相結合。

語音文件檢索中語音文件的表示形式通常有三種:

One.best、WCN(混

絡)和Lattice(網格)。One.best是語音文件經語音識別系統處理過后的最優譯本,形式上類似于傳統的文本文件;WCN為Lattice的一種特殊結構;語音識別結果中間結構——Lattice,是一種有向無環圖,在網格中可能存在多個潛在路徑,這種多候選特性可以在一定程度上補償由于模型不匹配等帶來的語音識別錯誤,提高系統的穩健性。

語音文件的表示形式均采用的是One.best。對于One.best輸出,索引單位是詞與音節的結合方法主要有三種:

分別檢索以詞為單位和以音節為單位的識別結果,然后將檢索結果相加;

對于屬于字典的查詢詞,搜索以詞為識別結果的索引,對于詞表外的查詢詞,搜索以音節為識別結果的索引;

搜索詞的索引,如果沒有結果返回,則搜索音節的索引。

從目前總體研究和應用現狀來看,基于內容的音頻檢索研究有著良好的發展趨勢,各種新的研究方法和手段不斷被提出,階段性成果明顯。但該領域的發展離技術成熟還有一段距離,較高水平的自動化和智能化的要求還沒有達到。另外,針對海量數據的特點如何快速地進行音頻的檢索,以及如何引入相關性反饋更好地滿足用戶的檢索需求的問題還需要解決。

8.2.2基于內容的音頻檢索的總體框架

基于內容的音頻檢索系統的應用可以分為許多不同的場合,這里討論的是基于哼唱的音樂檢索技術。歌曲庫中共20首歌,均為附帶人聲的中文歌曲,在實際檢索時,需要人通過哼唱來進行檢索。圖8-5是基于內容的音頻檢索的總體框圖。由圖可以看出整個系統主要可以分為三大部分:音頻數據獲取、音頻內容描述(語音與樂音特征提取)和特征相似度匹配。

圖8-5基于內容的音頻檢索的總體框圖

音頻內容描述是整個基于內容的音頻檢索的核心技術。音頻內容可以分為語音內容和樂音內容兩部分。音頻內容描述是在音頻內容獲取的基礎之上進行的,同時是進一步進行音頻特征相似度匹配的必要前提。音頻內容描述主要是指旋律包絡曲線,這是因為一般來說,人在哼唱歌曲時,可以根據所哼唱的歌曲的旋律信息判斷其哼唱的歌曲名字,而旋律信息以旋律包絡曲線表示,主要包含兩個重要的參數序列:一是音調變化信息;二是節奏信息。這兩種音頻內容描述與音調持續時間長短及音調間的高低變化有關。

8.2.3基于內容的音頻檢索的難點

音頻檢索是指從音頻資源中找出滿足用戶需求的音頻的過程。音頻本身具有的特點如下:

(1)音頻信號是帶有語音、音樂和音效的有規律的聲波的頻率、幅度變化信息載體,它也是一種時間依賴的連續媒體。

(2)人接收聲音有兩個通道(左耳、右耳),計算機模擬接收自然聲音也有兩個聲道。

(3)語音或樂音信號不僅僅是聲音的載體,同時還攜帶了情感和意向,故對音頻信號的處理不僅是信號處理,還要抽取語義等其他信息。

由于音頻具有以上特點,基于人工輸入的屬性和描述來進行音頻檢索有其固有的缺陷,勢必要尋找一種新的途徑來進行音頻檢索。然而,盡管國內外研究者就音頻信息檢索技術開展了大量的研究工作,音頻檢索技術在應用領域仍面臨著重重困境。在理論研究方面,與文本信息檢索及圖像和視頻信息檢索技術相比,音頻檢索技術仍然是一個未成熟的、具有極大潛力的研究領域,還存在以下一些問題需要解決:

(1)有效音頻特征提取問題。

(2)動態音頻檢索問題。

(3)噪聲魯棒的靜態音頻檢索與索引問題。

8.2.4現有的音頻檢索系統

音頻信息可以劃分為語音、音樂和波形聲音三種類型,相應的檢索處理方法也分為以下三種。

1.語音檢索

語音檢索指以語音為中心,通過語音輸入進行信息檢索的技術。它允許用戶使用口語或語音指令來提出查詢并獲取相關的搜索結果。

。圖8-6為使用Google語音檢索獲取天氣信息的示例。

圖8-6Google語音檢索天氣示例

另一個常見的語音檢索網站是Amazon的Alexa。Alexa是一款智能助手設備,支持語音命令和查詢。用戶可以使用Alexa執行各種任務,如播放音樂、設定鬧鐘、控制智能家居設備等。通過語音交互,Alexa能夠理解用戶的指令并提供相應的反饋和執行操作。圖8-7為AmazonAlexa控制智能家居設備示例。

圖8-7AmazonAlexa控制智能家居設備示例

在這個領域中,Houndify是一個令人印象深刻的語音檢索平臺。Houndify不僅具備優秀的語音識別能力,還提供了強大的語義理解功能。例如,用戶可以通過簡單的語音指令向Houndify詢問天氣情況,Houndify能夠理解用戶的意圖并提供準確的天氣預報。此外,Houndify還能夠回答關于股票行情、音樂、新聞、交通和地理位置等方面的查詢。圖8-8-為Houndify的應用程序開發界面。

圖8-8-Houndify的應用程序開發界面

2.音樂檢索

音樂檢索是一種查找和獲取音樂資源的過程。這種檢索可以基于各種音樂特性,如歌手、歌曲名、專輯名、流派、節奏、聲調、情感等關鍵詞進行。它為用戶提供了便捷的方式,讓他們能夠快速地找到自己喜歡的音樂作品或了解更多關于特定歌曲、歌手或樂隊的信息。

圖8-9為千千音樂的分類檢索界面,界面中給出了語種、流派、主題、情感和場景等多種檢索方式。圖8-10為QQ音樂的分類檢索界面,可以看出其檢索方式還包括熱門、主題、場景和心情等。

圖8-9千千音樂的分類檢索界面

圖8-10QQ音樂的分類檢索界面

3.音頻檢索

音頻檢索是一種基于波形聲音的檢索方法,它允許用戶通過音頻內容來查找相關的信息或資源。這種技術利用了聲音的唯一特征和波形形狀,以實現準確的匹配和識別。

Shazam是一款廣受歡迎的音頻識別應用程序,它能夠迅速識別和標識幾乎任何播放中的歌曲。Shazam音頻識別界面如圖8-11(a)所示。

QQ音樂的音樂識別功能允許用戶通過錄制或上傳一段音頻來識別該音頻所對應的歌曲信息,如圖8-11(b)所示。

圖8-11Shazam與QQ音樂的聽歌識曲功能

8.3基于內容的圖像檢索技術

圖像數據的爆炸性增長使得對圖像的管理和檢索越來越受到關注。傳統的圖像檢索方法從本質上來說是一種基于文本的圖像檢索技術,它的歷史可以追溯到20世紀70年代末期,當時流行的圖像檢索技術是將圖像作為數據庫中存儲的一個對象,用關鍵字或自由文本對其進行描述,查詢操作是基于該圖像的文本描述進行精確匹配或概率匹配。然而,傳統的圖像檢索方法具有以下難以克服的缺點:

(1)每一幅圖像都需要人工進行注釋,因此標注較大的圖像數據庫需要大量的人工勞動。

(2)人工注釋具有很強的主觀性,即使對于同一幅圖像,不同的人有著不同的看法,而且,一旦人工注釋完成就很難更新和改變。

(3)一幅圖像所包含的意義非常豐富,“一幅圖像勝過千言萬語”,人工注釋的少量文字很難充分表達圖像的內涵。

(4)不同國家、不同民族很難用同一種語言對圖像加注標識,而且對圖像語義理解的差異也很大,不可能形成一種統一的檢索方法。

8.3.1基于內容的圖像檢索系統的檢索過程和關鍵技術

圖8-12給出了一個典型CBIR系統的基本結構框圖。從圖中可以看出,系統主要由圖像查詢子系統和圖像庫建立子系統兩部分組成。圖像庫建立子系統的主要功能是建立和維護整個圖像庫及相關文件,其核心是特征提取技術。特征提取技術對圖像庫中的圖像提取特定的特征,生成特征矢量,并與圖像一起存儲在圖像庫中,從而形成基于內容的圖像數據庫。

圖8-12典型CBIR系統的基本結構框圖

根據上述對CBIR系統基本功能的描述,下面我們著重介紹基于內容的圖像檢索系統中的關鍵技術。

1.特征提取

圖像特征的提取與表達描述是圖像檢索技術的基礎。圖像的內容特征可以分為兩類:低層視覺特征和高層語義特征。低層視覺特征主要包括顏色、紋理、形狀和空間關系等,可以通過特征提取獲得。高層語義特征則包含圖像對應的語義信息,需要對圖像中目標進行檢測、識別和解釋,往往要借助人類的知識推理,依靠人機交互的方式獲得。

1)低層視覺特征

(1)顏色特征提取。顏色被認為是CBIR系統中最主要的視覺特征,最早在基于內容的圖像索引中得到應用。每個物體都有其特有的顏色特征,同一類事物往往有著相似或相同的顏色特征,因此可以利用顏色特征來區分不同物體。對圖像檢索比較有效的顏色特征的表達方法有顏色直方圖、顏色相關圖、顏色矩和顏色一致性矢量等。顏色包含兩個概念:一個對應全局顏色分布;一個對應局部顏色信息。

基于全局顏色特征的檢索方法中,目前采用最多的是色彩直方圖的方法,它的主要思想是:根據色彩直方圖統計每種色彩在圖像中出現的概率,然后采用色彩直方圖的交集來度量兩幅圖像色彩的相似性。該方法優點在于簡單有效,而且對圖像旋轉、伸縮變換不敏感,缺點是忽略了色彩的空間分布信息。在此基礎上,又出現了累積直方圖、模糊直方圖和合并直方圖等改進方法。

局部顏色信息是指局部相似的顏色區域,它考慮了顏色的分布與一些初級的幾何特征。局部區域中的顏色信息可以表示為平均色彩、主色彩、色彩直方圖和二進制色彩集。Xu等人試圖結合圖像的色彩信息和圖像色彩的部分空間信息對顏色直方圖進行檢索。Chang等人采用色彩的自動分割方法,形成一個二進制的色彩索引集,在圖像匹配中,比較這些圖像色彩集的距離和色彩區域的空間信息。

(2)紋理特征提取。紋理特征是一種不依賴于顏色或亮度的反映圖像中同質現象的視覺特征,它是圖像中既重要而又難以描述的特征,反映的是圖像像素灰度級空間分布的屬性。紋理是與物體表面材質相關的視覺特性,可以視為某些近似形狀的重復分布。從人類的感知經驗出發,紋理特征的基本特征大致包括粗糙度、對比度、方向度、線像度、規整度和粗略度,其中最重要的特征是粗糙度、對比度和方向度。這些紋理特征集很好地對應人類視覺感知特性,也是用于檢索的主要特征。紋理分析的方法大致可以分為兩類:統計方法和結構方法。另外,近年來小波理論和分形理論的發展,為紋理分析提供了新的工具。

統計方法是最簡單的,它借助于灰度直方圖的矩來描述紋理。紋理統計特征分析方法主要有共生矩陣分析法、馬爾可夫分析法、多尺度自回歸模型以及遺傳算法等?;诙A灰度統計特征的統計方法通常在頻率域和空間域上進行。在頻率域上,主要采用傅里葉變換和小波分析方法。圖像在傅里葉變換后,其能量譜在一定程度上反映了圖像的粗糙度和方向性。用Gabor小波模型表示紋理也是紋理分析的一大方向。

結構方法是根據紋理基元及其排列規則來描述紋理的結構、特征以及特征與參數之間的關系。結構方法的紋理描述包括圖像的對比度、粗細度、方向性、重復性和復雜性等。這種描述方法通常將計算特征與語義聯系起來,有利于高層語義的獲取。

(3)形狀特征提取。物體或區域的形狀是圖像表達和圖像檢索中的另一重要特征。許多物體具有不同的顏色,但其形狀總是類似的。形狀常與目標聯系在一起,有一定的語義含義,因而形狀特征可以看成比顏色或紋理更高層一些的特征。

形狀特征的表達必須以對圖像中物體或區域的劃分為基礎。形狀可用面積、周長、連通性、離心率、拐點數、圓形度、偏心率、主軸方向形狀矩、曲率、分形維等全局和局部特征來表示。

一般來說,形狀特征有兩種表示方法:一種是輪廓特征;另一種是區域特征。圖像的輪廓特征主要針對物體的外邊界,而圖像的區域特征則關系到整個形狀區域。這兩類形狀特征提取的最典型方法是傅里葉形狀描述符(FourierShapeDescriptor)和

矩(MomentInvariant)。傅里葉形狀描述符是用物體邊界的傅里葉變換作為其形狀描述的。形狀無關矩是基于區域的物體形狀表示方法。

(4)圖像空間關系特征提取。顏色、紋理和形狀等多種特征反映的都是圖像的整體特征,而無法體現圖像中所包含的對象或目標。事實上,圖像中對象所在的位置和對象之間的空間關系同樣是圖像檢索中非常重要的特征??臻g關系是指空間對象之間的空間特性關系,主要包括拓撲、方向、度量這三大類關系。

提取圖像空間關系特征的方法可分為兩類。

一類是基于圖像分割的方法。對圖像進行自動分割,劃分出其中所含的對象或顏色區域,然后根據這些區域進行圖像索引。

另一類是基于圖像子塊的方法。簡單地將圖像均勻劃分成若干規則子塊,然后提取每個圖像子塊特征并建立索引。

2)高層語義特征

在CBIR系統中,存在一個低層視覺特征和高層語義特征理解之間的差異,也就是著名的語義鴻溝(SemanticGap)。語義鴻溝存在的主要原因是低層視覺特征不能完全反映或者匹配用戶的檢索意圖。彌補這個鴻溝的技術手段主要有相關反饋、圖像分割、建立復雜的分類模型以及完善圖像語義抽取規則知識庫等,這些圖像檢索技術都有需要完善的地方。

提取圖像的語義特征依據的是圖像的視覺特征,這與基于文本的圖像檢索有本質區別。過去的基于文本的圖像檢索只是簡單機械地進行字符串匹配,而現在提出的語義特征提取概念則是在文字與圖像之間建立起映射關系。這種映射關系不是一對一的,相同的文字在不同的圖像內容中可以代表不同的含義,不同的文字也可以表示相似或是相同內容的圖像。

基于語義的圖像檢索主要致力于兩個方面的技術研究:景物分析與分類技術和目標識別與檢索技術。景物分析與分類技術對于基于語義的圖像檢索是非常重要的,因為其不僅可作為檢索時一個重要的過濾器,還可以識別特殊物體。目標識別與檢索技術主要是利用數據庫檢索技術來識別和分類目標,它包括全自動目標識別和基于用戶的相關反饋學習這兩種技術。

2.索引技術

在Internet上存儲的圖像數據一般都是海量數據,必須建立合適的高維索引方法對特征空間進行索引,使得在檢索時,不必比較數據庫中的每一幅圖像,而是通過索引直接找到相似圖像。美國匹茲堡大學的張系國教授在研究圖像信息系統時指出,對于圖像數據其索引應從三個方面(索引的表示、索引的組織和索引的提取)進行研究,并用一個三維坐標來表示。

3.相似性匹配

圖像檢索的效果很大程度上取決于相似度匹配算法的優劣,即如何以一定的計量或測量方法來判斷圖像內容是否相關。在模式識別技術中,特征的相似度測量一般采用距離

法,即特征的相似程度用特征向量的空間距離來表示,常用的有歐氏距離、馬氏距離等。在基于內容的圖像檢索中,兩幅圖像是否相似是指它們的視覺特征是否相似。通常將圖像的特征看成坐標空間(即特征空間)中的點,兩個點的接近程度通常用它們之間的距離表示,即它們之間的不相似程度。距離度量函數的定義通常要滿足距離公理的自相似性、最小性、對稱性和三角不等性等條件。

8.3.2現有的圖像檢索系統

1.QBIC

QBIC(QuerybyImageContent)系統是由IBM提出的、在基于內容的圖像檢索領域應用最早的商用產品。圖8-13為QBIC系統界面。QBIC系統提供了多種查詢方式,包括支持用戶使用例子(系統自身提供)查詢、用戶素描草圖查詢、掃描輸入圖像查詢、指定特征(紋理、顏色等)查詢方式、用戶輸入動態影像片段和前景中運動的對象等查詢方式。在此系統中,顏色主要使用在RGB、YIQ和Lab等顏色空間直方圖。紋理特征主要基于文獻的紋理描述方法。

圖8-13QBIC系統界面

2.Virage

Virage是由Virage公司開發研制的基于內容的圖像搜索引擎。Virage的特點包括:提供了完善的用戶開發功能,例如用于用戶開發界面的工具包;提出Primitive概念,用于支持用戶定義新的圖像視覺特征(包括該特征的類型、計算和相似性度量方法);支持五種抽象數據結構,便于圖像特征的描述;提供用戶相關反饋檢索機制。該系統比較適合用來進行特定應用領域圖像數據庫的二次開發。Virage已經和多種商業數據庫進行了集成。

3.VisualSEEK和WebSEEK

VisualSEEK和WebSEEK是由美國哥倫比亞大學開發的姊妹系統。它們的主要特點是利用圖像區域空間關系進行查詢和從壓縮域提取視覺特征來進行檢索。系統中主要使用的特征是顏色特征和基于小波變換的紋理特征,并且使用基于Quad-Tree和R-Tree的索引結構以提高檢索速度。VisualSEEK和WebSEEK支持基于視覺特征及其相互之間空間關系的檢索。WebSEEK主要是面向Web的搜索引擎,它包括三個模塊:圖像/視頻收集,分類、索引和搜索,瀏覽和檢索。VisualSEEK和WebSEEK支持關鍵詞檢索,并使用用戶相關反饋技術來改善檢索結果。

4.AuroraEye

極光是唯一能夠用肉眼看見的反映極區特征的地球物理現象,對其形態和演變的觀測可以獲得大量有關磁層和日地空間電磁活動的信息。隨著全天空數字成像系統的出現,每年數以百萬計的極光圖像被采集存儲,為研究極光現象提供了極為重要的數據來源。如果沒有高效準確的檢索工具,人們很難從海量極光數據中搜索到自己所需的圖像。

基于內容的極光影像序列檢索系統AuroraEye的總體結構框圖如圖8-14所示。

圖8-14基于內容的極光影像序列檢索系統AuroraEye的總體結構框

圖8-15給出了基于內容的全天空極光圖像檢索示例。該示例為基于LBP表征的圖像匹配結果。每組的左圖為輸入圖像,右圖為使用LBP表征和最近鄰匹配器檢索到的與左圖最相似的圖像。由圖中可以看出,該系統檢索到的兩幅全天空極光圖像非常相似。其中,每幅極光圖像下方標示了該圖像拍攝的時間。

圖8-15基于內容的全天空極光圖像檢索示例

5.MARS

MARS是伊利諾伊大學厄巴納-香檳分校開發的支持圖像底層特征的復合檢索的圖像檢索系統。其特點是使用比較全面的圖像底層特征,提供基于樹結構的多特征組合檢索。在圖像特征方面:使用HSV顏色空間的HS上的色彩直方圖來描述圖像的顏色;抽取圖像紋理的粗糙程度和方向性以及對比度等特征來描述紋理;采用圖像的規劃分割方法對圖像特征的空間分布進行描述;根據紋理對圖像進行分割來實現圖像中對象的描述;對分割后的對象區域按照敏感性進行分組;使用傅里葉描述子對圖像中對象的形狀進行描述。

檢索時對上述特征分別采用相應的相似性度量方法,最后給出綜合排序。由于采用多方面的圖像特征描述和相應的相似度度量方法,因此該系統可以提供比較復雜的檢索功能。這個系統的突出特點在于引入了相關反饋機制,能夠根據用戶的交互動態地組織和優化查詢,從而提高檢索效率。

8.3.3圖像檢索系統的發展趨勢

目前,CBIR技術的研究熱點主要集中在以下幾個方面:

(1)基于全局特征的圖像檢索。

(2)基于區域的圖像檢索(Region-basedImageRetrieval)。

(3)基于圖像語義的研究。

(4)高維特征索引技術。

(5)相關反饋技術(RelevanceFeedback,RF)。

(6)相關反饋與機器學習相結合。

8.4基于內容的視頻檢索技術

8.4.1概述多媒體技術與網絡技術的發展,信息豐富的多媒體數據逐漸成為信息處理與傳輸的主要對象,尤其是視頻數據。視頻是一種較特殊的媒體,有時也稱為圖像序列、連續圖像和運動圖像等,具有數據量大、蘊涵信息豐富的特點,已經成為多媒體信息的一種主要表達形式。

信息社會的特點不僅僅在于信息數據的爆炸性增長,更在于信息的有效利用。但是,視頻本身是一種無結構的、時間依賴的數據流,難以組織與索引。要尋找感興趣的視頻信息,通常的做法是要從頭至尾觀看整個視頻,這是非常耗時且令人厭煩的。第一代視頻檢索系統基本上基于文本方式,所使用的信息主要有兩種:內容無關的元數據與人工標注的內容相關的關鍵詞或自由文本。這種方式的不足之處是:①

需要大量的人力對視頻數據進行注釋;②

視頻蘊涵的信息非常豐富,而人的感知是主觀的,不同的人對同樣的視頻內容有不同的感知,這種主觀性和注釋的不準確性會導致視頻檢索的失配。

視頻中包含的內容可以分為視覺內容與語義內容兩個部分:視覺內容是客觀的,如顏色、紋理、形狀、空間關系和運動信息等;語義內容卻常常具有一定的主觀性,是人類的一種感知,與觀察者密切相關,如事件、情節等。即使視覺內容是客觀的,但要用文字進行準確描述與標注,也是一件非常困難的事情,如一幅紋理圖像,用文字描述有時是不可能的。語義內容受觀察者、環境的影響更大,其標注往往因人而異,難以準確和客觀。

基于內容的視頻檢索指的是對視頻數據中蘊涵的視覺和語義內容進行計算機處理、分析與理解并根據內容進行檢索,其本質是對無序的視頻數據結構化,提取視覺與語義信息,保證視頻內容能被快速檢索?;趦热莸囊曨l檢索與以往基于整個視頻文件的檢索相對應,是基于視頻數據局部且與內容相關的檢索?;趦热莸囊曨l檢索不需要人工注釋文本關鍵詞,是由計算機自動完成的。目前基于內容的視頻檢索的研究主要集中在基于視覺特征的檢索方式上,還不能很好地實現基于語義特征的檢索。

另一方面,隨著網絡技術與視頻壓縮技術的發展,視頻已成為網絡傳輸中一種主要的數據形式。但是,相對于視頻的大數據量來說,現有硬件的計算、存儲和網絡傳輸能力仍然面臨嚴峻的考驗,難以滿足服務要求。相對于視頻用戶的需求來說,網絡中傳輸的視頻是相當冗余的,有許多是無用的。因為沒有有效的視頻檢索技術,用戶往往需要將視頻下載到本地來瀏覽,這樣有可能存在兩種情況:

一是下載的視頻是無用的;

二是在一段相當長的視頻中只有極少的一部分是滿足用戶需求的。

8.4.2基于內容的視頻檢索及關鍵技術

1.CBVR的組成與特點

從數據庫管理系統的角度來分析基于內容的視頻檢索系統,CBVR系統的組成結構如圖8-16所示。

圖8-16CBVR系統的組成結構

CBVR系統主要包括以下五個部分。

1)視頻數據庫(VideoDatabase)

視頻數據庫是視頻數據的物理存儲,主要存放各種類型與格式的視頻。它可以是抽象的,也可以是具體的。抽象是指視頻數據庫與具體的視頻媒體類型、存儲形式等無關,可以是壓縮視頻,也可以是未壓縮視頻,可以是傳統的模擬視頻如存儲在錄像帶中的視頻,也可以是數字視頻,如存儲在存儲器中的視頻文件,甚至還可以指分布在整個因特網中的視頻。具體而言,通常是特指存儲在本地的視頻數據,一般是壓縮的數字視頻。

2)特征數據庫(FeatureDatabase)

特征數據庫用來存放視頻數據管理的目標模式,用這些目標模式可以把視頻數據的邏輯位置與物理位置聯系起來。在基于內容的視頻檢索系統中,目標模式通常是用視頻數據的內容特征來表示的。在這里,特征既可以是文本形式的元數據,也可以是視覺特征(如顏色、形狀、紋理和運動信息等)。特征數據庫是在視頻歸檔時建立的,其關鍵作用是建立視頻數據與邏輯表達之間的聯系。特征數據庫實質是視頻數據庫的索引,因此特征數據庫中目標模式以什么樣的方式來組織與存儲,對CBVR系統的性能有著非常重要的影響。

3)視頻查詢

視頻查詢的作用是將用戶提交的不同類型的查詢轉換為上述特征數據庫中一致的目標模式,并將目標模式與特征數據庫中存儲的目標模式進行相似匹配,以實現所查詢視頻的物理定位?;趦热莸囊曨l查詢有兩種含義:①

查詢與視頻內容相關的概念,這種查詢比較抽象,最簡單的概念表達方式是基于文字的,一般常使用自由文本或關鍵詞;②

查詢視頻中目標的運動、紋理和顏色等特征,這種查詢比較具體,如關鍵幀的顏色、紋理、形狀和運動信息等。

4)視頻歸檔

視頻歸檔的作用是將原始視頻數據加入視頻數據庫中,其主要功能是對視頻數據進行結構與內容分析,將提取的目標模式存儲在特征數據庫中。目標模式以手工、半自動、全自動的方式抽取,其實質是提取表達目標模式所需的各種特征。在基于內容的視頻檢索中,實現目標模式的半自動或全自動提取,盡量減少人工操作,是CBVR系

本目標。

5)用戶接口

用戶接口的作用是接受用戶的查詢請求,并將查詢結果以直觀可視的方式表現出來。用戶接口應是用戶友好的,支持用戶的多種查詢方式,支持個性化查詢。由于基于內容的視頻檢索是一種相似檢索,因此還應具有相關反饋機制。

從系統使用的角度來分析,可以將基于內容的視頻檢索系統分為兩個子系統:視頻歸檔與視頻檢索,其流程如圖8-17所示。

圖8-17視頻歸檔與視頻檢索系統流程

基于內容的視頻檢索一般是根據查詢(如例子幀或例子視頻段)提取的特征向量與特征數據庫進行相似性匹配,這就存在一些問題:

視頻的描述具有主觀性,用一組確定的特征不一定能表達用戶的主觀意圖;

低層視覺特征與高層語義特征存在著目前難以克服的語義鴻溝;

采用的相似性測度不一定與用戶的主觀評價一致;

用戶不一定開始就明確知道或能明確表達其查詢要求。

因此,期望通過一次搜索就找到所需的視頻單元在具體應用中通常是不現實的,基于內容的視頻檢索技術需要隨應用和用戶的不同而調整,采用的技術就是相關反饋技術,使用戶可以動態地、交互地調整其查詢,將用戶的特殊要求反饋給系統,使檢索更有效且更接近用戶的需求。基于內容的視頻檢索應該是一個漸進的處理過程,并且應該能實現個性化查詢,如圖8-18所示。

圖8-18-用戶查詢處理過程

由于視頻數據通常是一種無結構的碼流,從以上基于內容的視頻檢索系統的分析可知,要實現基于內容的視頻檢索,關鍵就是怎樣根據內容對視頻數據進行組織,使之支持基于內容的視頻檢索。因此,一個理想的基于內容的視頻檢索系統,有幾個關鍵問題需要解決:

將無結構的視頻流結構化,組織成不同層次的視頻單元,以支持不同粒度的視頻檢索,即通常所說的狹義的視頻結構分析;

對視頻進行內容分析,確定能夠充分描述視頻內容的特征,包括視覺與語義特征等,即通常所說的視頻內容分析;

要有有效的特征提取方法及相應的特征降維與約簡方法;

對于大型的視頻數據庫,要有有效且快速的組織與索引技術,即要有一種快速的訪問機制;

要有準確的特征匹配算法,支持視頻的相似性檢索;

要有有效的顯示與交互技術,支持用戶瀏覽、相關反饋等。

2.視頻檢索關鍵技術

1)視頻數據模型

從上面的討論可知,要實現基于內容的視頻檢索,就必須對無結構的視頻數據流進行有效的組織。要對視頻數據進行有效的組織,就要有合適的視頻數據模型。在視頻數據模型實例化的過程中,有兩個關鍵問題需要解決:①

時域分割,即將視頻數據重新組織為不同層次的視頻單元,以實現視頻檢索的局部化;②

內容分析,即確定能刻畫視頻單元的區域、目標、運動等屬性,提取特征向量,建立索引,以實現基于內容的檢索。從廣義上說,視頻結構化應該包括分析視頻內容、提取特征、對內容進行描述,以獲得視頻結構化的表達。

視頻數據模型的設計應遵循以下原則:首先,它應反映不同層次的視頻單元中所蘊含的各種特征,這些特征作為特征數據庫中的目標模式把視頻數據的邏輯信息與物理信息聯系起來,以實現基于內容的視頻檢索;其次,視頻數據模型應該能支持一定的視頻操作;最后,視頻數據模型應該能夠應用MPEG-7標準建立統一的視頻內容描述。

以下是幾種常用的視頻數據模型:

(1)時間類描述模型。

(2)基于應用及生成的視頻數據模型。

(3)代數視頻數據模型。

它引入了視頻段

之間的層次關系及視頻代數操作,具有的特點是:①

模型支持嵌套視頻結構單元,如鏡頭、場景及視頻序列等;②

模型可表示視頻段的時間組成;③

模型定義了視頻段的表現特征;④

模型提供了與邏輯視頻段相關的內容信息;⑤

模型提供了基于內容、結構及空間信息的存取。

(4)通用視頻數據框架模型。通用視頻數據框架模型是借助傳統數據庫模型的表達方式建立起來的,它具有以下特征:①

模型借助E-R(Entity-Relationship)圖建立一個概念模型,模型中提供了核心概念及模塊,在應用中可以使用其核心概念或是其子集,所以該模型具有較強的靈活性,適合不同需要,具有通用性;②

模型采用視頻分段的方法定義視頻文檔結構,有良好的層次抽象結構,支持鏡頭、場景、序列及復合單元等多級抽象;③

模型采用了面向對象的技術,每個視頻對象都有唯一的標識符,并可具有復雜的屬性;④

模型中引入了視頻數據上下文的概念,借助于上下文可把原始視頻合成為新視頻流,并由此可能產生新的語義;⑤

模型中定義了視頻查詢代數,可對視頻數據進行方便的操作。

(5)面向對象的視頻數據模型。面向對象的視頻數據模型是基于面向對象的概念提出的。在視頻數據模型中引入面向對象的概念,具有一定的優點:①

借助于面向對象技術中的復合及泛化聯系的概念可表達視頻數據對象之間的復雜關系,有助于視頻數據的表達和管理;②

借助于面向對象技術中數據及相關方法的封裝概念,可減少視頻數據之間類型及描述的差異為構造模型增加的難度;③

借助于基于類層的屬性結構及方法的繼承性,可解決視頻數據的表達及擴充的問題。在視頻數據模型中引入面向對象的概念,與MPEG系列標準的發展方向是一致的。

2)視頻時域分割

要做到基于內容的視頻檢索,就必須按照視頻數據模型對視頻數據進行結構分析,例如將視頻流中的連續幀序列分割成若干“有意義”的不同層次的視頻單元(如鏡頭、場景等),建立層次結構,以支持不同粒度的視頻檢索。視頻數據一般都是分層組織的,但是,將視頻數據按多少個層次進行組織以及不同層次的劃分標準等問題存在較大的分歧。目前,比較一致的看法是將視頻數據按“幀(Frame)—鏡

頭(Shot)—場

景(Scene)—視

頻(Video)”的層次形式進行組織。視頻的分層組織結構如圖8-19所示。

圖8-19視頻的分層組織結構

視頻數據結構化一般有兩種方法:

一種是人工方法,非常煩瑣且無法保證視頻分析的效果;

另一種是計算機自動分割,受目前相關技術的限制,該方法只能在較低的層次上實現,還無法在高層語義上實現視頻流的自動分割,因此計算機自動視頻流分割是未來的發展方向。

3)視頻內容分析

視頻內容分析指視頻時域分割后,確定能刻畫視頻單元的屬性,并提取相應的特征,對內容進行描述與表達。在基于內容的視頻檢索中,使用的信息大體上可以分為三類:①

內容無關的元數據,指與視頻內容不直接相關但有某種聯系的數據,如視頻格式、作者、日期、所有權等;②

內容相關的元數據,如顏色、紋理、形狀、空間關系、運動等低層或中層的數據,通常這些元數據與視覺感知相聯系;③

內容描述元數據,如高層語義內容數據,一般以文字形式描述,它關心視頻實體與客觀世界實體的關系,或者與視覺符號和場景相聯系的時間事件、感受和意圖的聯系。

根據人類視覺感知特點,內容處理、分析或建模通常在三個層次上進行,下面簡單介紹這三個層次。第一個層次是低層內容建模,即原始視頻數據建模,采用的技術是傳統的圖像處理與視頻處理技術,提取顏色、紋理、形狀、空間關系和運動軌跡等視覺特征,能實現諸如“上邊是紅色,下邊是藍色的鏡頭查詢”“目標從左下角運動到右下角的鏡頭查詢”等,典型的系統是IBM開發的QBIC系統。

第二個層次是中層內容建模,即派生或邏輯特征表示,采

用的技術是計算機視覺技術,使用邏輯與統計推理,提取對象及其相互關系等特征,也就是通常所說的高層特征,如車、人、塔等,能實現諸如“包含塔的鏡頭查詢”“包含車的鏡頭查詢”等,典型的系統是哥倫比亞大學開發的VideoQ系統。中層內容分析提取的對象可以說是介于低層視覺特征與高層語義內容之間,描述對象的特征既包括視覺特征,如對象的顏色、紋理和形狀等,又包括語義特征,如車、人等概念,是實現低層視覺特征向高層語義特征映射的關鍵步驟。

第三個層次是高層內容建模,即語義層摘要,相關的技術包括人工智能、認知科學和哲學等。高層內容建模使用智能多媒體推理、知識庫等產生對象或場景意義或目的等語義摘要,能實現“包含表情痛苦的人的鏡頭查詢”等,典型的系統是IBM與哥倫比亞大學聯合開發的MediaNet系統。進行語義內容分析和采用多模態方法,即融合場景文字、字幕、音頻和視頻等信息進行多媒體推理是一種有效的手段。

4)視頻特征提取與索引

視頻索引是與視頻數據模型緊密相關的一個概念,用視頻數據實例化視頻數據模型的過程就稱之為視頻索引。視頻索引與傳統數據庫的索引有很大的不同,視頻索引不僅僅是一種索引結構,還在于它要能提供一種抽象數據類型,用來封裝視頻數據的視覺特征和語義特征,以支持基于內容的視頻檢索。

提高多維數據索引的效率可以從兩個途徑考慮:一是特征降維;二是采用空間訪問方法(SpatialAccessMethod,SAM)。

8.4.3現有的基于內容的視頻檢索系統

本節主要介紹以下幾種常見的基于內容的視頻檢索系統:

(1)SVS(SportsVideoSummarization):一個僅使用音頻特征進行體育視頻精彩內容提取的系統。該系統在視頻的壓縮域使用視頻的顏色和運動量兩個最底層的特征來檢測精彩片段,通過減少音頻類型(興奮的語音、音樂、掌聲、歡呼聲、正常的語音)的數量以及高斯混合模型的復雜度來提高系統的效率。實驗證明該系統也可以用于音樂的分類。由于系統構建簡單,因此很容易集成到其他的系統中去。

(2)SVSS(SmartVideoSurveillanceSystem):一個專門針對航空領域開發的系統。該系統綜合使用人臉識別算法(FaceRecognitionAlgorithms,FRA)、主成分分析方法(PrincipleComponentAnalysis,PCA)、線性判別分析(LinearDiscriminationAnalysis,LDA)等技術對異常事件進行檢測并報警。

(3)VideoZapper:一個能夠基于音視頻內容的屬性(元數據)以及其他用戶對內容的使用情況將音視頻內容進行個性化的選擇與傳輸的系統。每一個用戶使用音視頻內容的信息都被存儲在與該內容對應的數據庫中,對所有用戶的這些信息進行統計,從而識別出大部分用戶感興趣的信息,在其他用戶使用該音頻和視頻內容時,首先將最吸引人的內容傳輸給用戶。

(4)BIS(BowlingInformationSystem):該系統包含視頻內容信息、與比賽有關的信息以及運動員的相關信息。所有的這些信息都用MPEG-7的規范進行描述。另外,該系統還設計了一個半自動標注機,該標注機集成了可感知特征的手動標注與可感知特征的自動提取。通過一個查詢接口,用戶可以檢索他想要的關于保齡球比賽的任何信息。

(5)BilVideo:一個視頻數據庫管理系統。該系統由事件提取機、視頻標注機、基于網絡的可視查詢接口以及類似SQL的查詢語言等部分組成。該系統支持顏色、形狀和紋理等查詢方式,并且可以實現剪輯視頻內部任何片段的檢索。

(6)IHVMS(IntelligentHomeVideoManagementSystem):由臺灣清華大學開發的智能家庭視頻管理系統。該系統首先計算每個視頻的五個特征,即顏色直方圖、紋理、運動幅度、運動方向直方圖和小波系數,然后使用計算機視覺中的一些技術,例如SVM、NeuralNetwork、Adaboost、K-means聚類算法等進行攝像機異常操作的檢測、鏡頭邊界檢測、人臉識別、關鍵幀提取、可變長度視頻摘要提取。該系統能夠使用戶有效地管理家庭中的各類視頻。

(7)NVBS(NewsVideoBrowsingSystem):由臺灣的一所大學開發的新聞視頻瀏覽系統。該系統首先利用所有新聞故事的文字信息對各個故事進行分類,并根據所提出的基于熵的方法把這些故事聚類成分等級的樹型結構。同時,為了減少無線環境下的網絡負載荷,該系統提取每個故事的視頻摘要并進行顯示。

(8)MDSS(Music-DrivenSummarizationSystem):一個專門針對家庭視頻開發的管理系統。在該系統中,首先提取音頻中的聲音能量和過零率,基于這兩個特征對音頻進行分割;同時,在視頻中,首先進行鏡頭邊界檢測,然后提取視頻中的一些特征,即人臉、燈光閃爍、運動和圖像幀的平均量度等特征,最后根據音頻和視頻特征的相關性實現音頻和視頻的同步。

(9)NewBR(NewsVideoBrowsingandRetrievalSystem):由武漢大學計算機科學系研究與開發的一個新聞視頻瀏覽與檢索系統。該系統的特點是基于類型的新聞故事瀏覽、基于關鍵幀的視頻摘要、基于關鍵詞的新聞視頻檢索。該系統的基礎是準確的新聞故事分割及其文本標題提取。新聞故事分割采用的方法是鏡頭邊界檢測和故事標題檢測等。該系統采用的一些策略(如音頻和視頻集成的方法)也可以用到其他類似的系統中去。

(10)SportBR(BroadcastedSpotsVideoRetrievalSystem):由華中師范大學計算機科學系開發的一個廣播體育視頻檢索系統。該系統采用基于事件的體育視頻瀏覽方法和基于關鍵詞的體育視頻檢索方法。首先將視頻分解為音頻流和視頻流,然后分別提取它們的特征。在視頻流中提取的特征是鏡頭檢測和文本提取等;在音頻流中提取的特征是語音信號能量等。這種多模特征集成的方法有效地提高了檢索的準確性。

(11)VISS(VideoIntelligentSurveillanceSystem):由清華大學自動化系研究與開發的一個實時的智能視頻監控系統。該系統采用魯棒的運動對象檢測與跟蹤算法,即用碼本模

型(CodebookModel)的方法檢測場景中的運動對象,隨后用LayerHiddenSemi-MarkovModel(LHSMM)對運動場景(如在公園里偷車的行為)進行建模,最后用卡爾曼濾波器(KalmanFilter)跟蹤算法記錄每個對象的運動路徑。

(12)IVDCS(InteractiveVideoDeliveryandCachingSystem):一個交互式的視頻傳輸與緩存系統。它主要使用視頻內容分析與視頻摘要技術。視頻內容分析技術包括鏡頭邊界檢測與關鍵幀提取。在一個用戶查詢某一個視頻時,系統并不是直接就把整個視頻提供給用戶,而是首先將該視頻的摘要提供給用戶,然后用戶快速瀏覽該摘要,確定是否觀看該視頻或者其中的某一個部分。該系統節省了用戶的時間與網絡帶寬。

(13)ISVCE(InteractiveSystemforVideoContentExploration):一個面向用戶的交互式視頻內容瀏覽與搜索系統。該系統能使用戶訪問任何視頻片段的任何詳細的內容。該系統由兩個子系統構成:第一個子系統是兩級的視頻緩存系統,主要是濾除不重要的視頻幀,并且把剩下的重要幀組織成圖索引的結構,這樣可以分等級地訪問視頻內容;第二個子系統是用戶接口,該接口幫助用戶交互式地瀏覽視頻的內容。該系統有三個主要特點:交互式的視頻瀏覽、語義視頻內容總結和語義視頻內容瀏覽。

(14)TQIBS(Two-levelQueuingSystemforInteractiveBrowsingandSearchingof

VideoContentMultimediaSystems):一種兩級排隊的查詢系統。該系統支持基于關鍵幀的視頻摘要和面向用戶的交互式視頻內容搜索。在第一級排隊中,用能量最小化的方法去除過渡幀;在第二級排隊中,通過度量視頻幀之間的相似性來去除冗余幀。最后剩余的關鍵幀以“有向圖”的方式進行組織與管理,此種方式使得用戶對視頻內容的查詢變得容易。該系統有一個用戶界面,使用戶可以交互式地搜索視頻內容。該系統的特點是計算復雜性小,內存占用率少。

(15)LBVR:一個基于改進的AdaBoost學習算法的交互式視頻事件檢索系統。該系統的操作由三個步驟組成:

使用基于分布的方法將一段長的視頻序列分割成若干段視頻序列;

在每段序列中,提取音頻視頻的特征(顏色、運動和音頻特征);

使用改進的AdaBoost學習算法實現具有相關反饋的交互式視頻檢索。

(16)NewsEye:西安電子科技大學影像處理實驗室自主開發的一種面向Web的基于內容的新聞視頻檢索系統。該系統通過分析新聞視頻的結構特點,利用視頻語義分割技術和基于內容的搜索技術,使得系統具有檢索效率高、檢索便捷和人機交互友好等特點。NewsEye系統的結構框圖如圖8-20所示。

圖8-20NewsEye系統的結構框圖

圖8-21為系統歡迎界面。在此系統中,“視頻管理”部分實現視頻鏡頭分割、關鍵幀提取部分的功能;“視頻檢索”部分實現本機的檢索功能;“查看幫助”為用戶提供了該軟件的使用說明。圖8-22和圖8-23分別為視頻管理界面和操作示例界面。

圖8-21系統歡迎界面

圖8-22視頻管理界面

圖8-23操作示例界面

8.4.4TRECVI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論