




已閱讀5頁,還剩9頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
通信學論文-數字視頻信息的索引研究1、引言視頻(Video)是源于廣播電視業的術語,指內容隨著時間變化的圖像(Picture)序列,也稱為活動圖像(MotionPicture)。廣義的視頻有電影、電視和計算機動畫等不同類型,狹義上的視頻主要是指電視類視頻。視頻是一種重要的視覺信息源。隨著各種數字影像設備的發展與遍及,以及多媒體技術和Internet的發展,人們面對的視頻信息種類迅速地增長,如電影、電視、視頻會議、監控錄像等。僅中央電視臺(CCTV)截至2003年就保存有約30萬盤視頻節目,目前CCTV開設有15套節目(日播出量超過300小時,其中約有1/3是首播節目)、6套付費電視頻道,以每天保存8090h的首播節目計算,每年新增節目將會達到3萬小時以上1。面對如此巨量的視頻信息,人們迫切希望改進傳統的對視頻數據的線性查找方式,研發出能夠快速定位和部分析取的視頻數據獲取技術。要達到這樣的目標,首先需要將視頻數據有序化,即對視頻信息進行有效的索引,使之便于檢索2。從目前來看,數據庫信息、文本信息、圖形圖像信息的檢索已進入成熟期,已有許多實用的檢索工具和產品,而視頻信息的檢索目前還處于研究階段,雖然已有一些實驗原型和個別針對特定領域的檢索工具,但目前還無普遍實用的工具和產品。其主要原因是,與其他信息(如文本、圖像等)相比,視頻信息主要有如下一些特點:(1)信息內涵豐富;(2)無“顯式”的結構;(3)存檔方式、視頻格式和編碼標準較多;(4)數據量大。近年來,許多研究人員在文本信息、圖形圖像信息檢索技術的基礎上,對視頻信息檢索技術進行了大量的研究,研究內容涉及視頻信息的存儲組織、內容分析、特征抽取、索引方法、匹配算法、檢索算法、檢索結果的評估和視頻信息的表現形式等諸多方面。本文在分析視頻信息的隱含結構基礎上,研究視頻信息的索引對象、索引模型和索引結構。2、視頻信息的隱含結構與索引對象目前的視頻文檔都是以節目(或稱為作品)為單位表現某個主題,其數據在組織時無“顯式”的結構和索引信息(如同一本無目錄和章節標題的書籍),用戶只能采用線性方式觀看和欣賞。傳統的視頻信息的消費往往是以節目為單位進行的,即查找某一電視節目(電視片、廣告片、某場體育比賽等),但不同類型的用戶(消費型、研究型、創作型和應用型3),在不同的場合下(通過電視、網絡、PDA、移動電話等)可能有不同的視頻消費要求,即可能需要以鏡頭、場景或故事單元為單位進行消費。例如,籃球教練需要查找“姚明進攻”的視頻鏡頭、司機在“塞車”時利用PDA收看某場足球比賽的精彩片段或畫面等等。所以,對視頻信息進行“結構化”,并針對不同的結構層次對象進行索引,是實現基于內容的視頻信息檢索的基礎。2.1視頻信息的隱含結構從形式上看,視頻信息本身是一種無“顯式”結構的流媒體,即數據流本身無明顯的“章節、段落”結構,但從構成和語義上看,視頻信息蘊涵著幀、鏡頭、場景、故事單元和節目這樣的層次型結構。其中,幀、鏡頭和節目是視頻信息的物理組成成分,而場景和故事單元則是語義上的邏輯組成成分。視頻是內容隨著時間變化的圖像序列,其最小組成單位是幀(Frame),即一幅幅靜止圖像;針對一個對象或事件的、攝像機一次拍攝產生的幀集合稱為一個鏡頭(Shot);發生在某一場地的、針對某一對象、具有相對獨立的敘事情節的一個或多個連續鏡頭構成一個場景(Scene);故事單元(StoryUnit)是指針對某一事件的、具有相對完整的故事情節的一個或多個連續場景的集合,例如電視連續劇中的每一節節目、NBA比賽中的每一節比賽;節目(Program)是獨立的完整的視頻文檔,通常表述一個完整的故事或事件。視頻信息的這種隱含結構,可用如下的數學模型表述:shotframe,ii1sceneshotii1story_unitscene,ii1programstory_unit,ii12.2視頻索引對象的分割與選取視頻信息蘊涵著幀、鏡頭、場景、故事單元和節目這樣的層次型結構,為了滿足不同的應用需求,視頻信息的索引應在各個層次上分別展開,即對視頻信息的索引,不僅要以節目為對象,而且需要在視頻分割的基礎上以幀、鏡頭、場景和故事單元為對象分別進行索引。節目和幀是視頻信息固有的自然層次,而鏡頭、場景和故事單元則要通過對視頻內容的分析、采用各種算法進行分割才能得到。(1)幀對象的選取雖然幀是視頻信息固有的自然層次,但一個視頻文檔由太多的幀組成(每秒2530幀),且幀之間存在大量的信息冗余以及用戶不感興趣的幀圖像,這就需要采取一定的策略進行幀的“選取”,找出一定數量的“代表幀”(也稱為“關鍵幀”)。目前代表幀的選取大多是在鏡頭分割的基礎上,以鏡頭為單元分別進行代表幀的選取,選取算法主要是以鏡頭的首幀、尾幀或中間幀為代表幀。筆者認為,代表幀的選取還應考慮兩個方面:一是對于不同體裁(類型)的視頻,應采用不同的選取方法,且代表幀的數量也應區別對待;二是可以通過幀圖像的相似性比較,對幀進行聚類,從幀數最多的類中選取代表幀(因為持續時間長的畫面往往更具有代表性)。(2)鏡頭分割鏡頭是視頻節目構成的基本單元,也是視頻消費時的最小邏輯單元。一個完整的視頻節目通常由若干個鏡頭組成,例如一部2小時的電影通常由數百個鏡頭組成。鏡頭之間的切換形式主要有突變和漸變兩大類,漸變又可分為隱現(Dissolve)、淡入/淡出(Fade)和擦除(Wipe)等不同類型,文獻4列出了常見的10種鏡頭變換形式,在實際的應用中可能有上百種鏡頭變換效果。采用人工方式進行視頻分割是十分費時的。近十多年來,電子工程和計算機科學等領域的學者從不同的角度研究出了多種自動鏡頭檢測的方法,其基本思想大多為比較相鄰幀之間的相似性。目前鏡頭檢測技術的方法分類主要有以下三種:根據所處理的視頻是否為壓縮數據進行分類,如文獻4所述,將鏡頭變換檢測方法分為基于解壓的全圖像序列的識別方法、直接基于壓縮視頻的識別方法和基于確定變換模型的識別方法;根據檢測的鏡頭變換類型進行分類,如文獻5所述,將鏡頭變換檢測方法分為突變檢測(HardCutDetection)、淡入/淡出檢測(FadeDetection)和隱現檢測(DissolveDetection)等類型;根據檢測時所采用的視頻特征進行分類,可以將鏡頭變換檢測方法分為基于亮度/顏色(Intensity/color)的檢測、基于紋理(Texture)的檢測、基于邊緣(Edges/contours)的檢測、基于運動(Motion)信息的檢測,等等。鏡頭突變檢測的技術相對比較成熟,一般采用基于顏色直方圖比較法即可得到較高的準確率。但對于形式多樣的漸變切換檢測,通常需要采用多種檢測手段進行綜合檢測,這也是目前鏡頭檢測研究的難點和熱點之一。(3)場景分割場景是發生在某一場地或針對某一對象(或動作)的、具有相對獨立的敘事情節的一個或多個連續鏡頭的集合。有時一個場景就是一個鏡頭,有時一個場景是從不同角度反映同一場地(或對象或動作)的多個鏡頭的組合。目前場景分割(也可稱為場景構建)一般是在鏡頭分割的基礎上,采用鏡頭聚集的方式實現。文獻6提出了一種通過構造層次型“場景變換圖”的方法實現場景分割的思路,場景變換圖中的結點表示鏡頭、邊表示變換,基于場景變換圖,利用顏色的相似性計算對鏡頭進行層次聚類,形成的每一個子圖即為一個場景;文獻7提出了一種在鏡頭分割基礎上,利用運動信息(包括攝像機運動和對象運動)、鏡頭長度和顏色屬性進行場景檢測的方法。(4)故事單元分割在影視制作過程中,導演根據劇本的內容,按照敘述的邏輯并根據創作意圖,合乎邏輯地、富有表現力地、有節奏地把鏡頭連接起來,構成完整的銀幕形象,形成比鏡頭更高一級的結構故事單元8。故事單元是指針對某一事件的、具有相對完整的故事情節的一個或多個連續場景(鏡頭)的集合。故事單元分割的基本思想也是在鏡頭分割的基礎上,結合領域知識對鏡頭(或場景)進行聚類分析。故事單元的理解主要是從語義層次上進行的,其長度(大小)并沒有確切的定義和界限,需要更多地考慮視頻節目的類型、體裁等領域知識。對于不同類型的視頻節目,其故事單元的劃分有不同的形式。例如,對于電視連續劇,可以將每一集看作一個故事單元;對于體育節目,可以根據其本身所固有的時間間隔進行分割,或根據主要事件(如得分、進球等)進行分割等。2.3視頻索引對象的數據結構數據模型是直接面向計算機系統(數據庫)中數據的邏輯結構。在常見的數據庫系統中,根據實體集之間的不同結構,通常把數據模型分為層次模型、網狀模型、關系模型和面向對象模型四種。目前成熟的、主流的數據庫管理系統絕大多數是采用關系模型,并在此基礎上擴展了面向對象的程序設計功能。鑒于這種情況,可以考慮視頻索引對象的數據結構采用如下的關系數據模式:節目Program(節目號pNO,索引信息p)故事單元StoryUnit(節目號pNo,故事單元號uNO,索引信息u)場景Scene(節目號pNo,故事單元號uNO,場景號eNO,索引信息e)鏡頭Shot(節目號pNo,故事單元號uNO,場景號eNO,鏡頭號sNO,索引信息s)代表幀KeyFrame(節目號pNo,故事單元號uNO,場景號eNO,鏡頭號sNO,幀號fNO,索引信息f)在實現時,節目號由分類號和編號兩部分組成,其中分類號應采用類似于中圖分類號的編碼體系,分類方法可參考TVAnytime論壇制定的分類策略(SP003v1312);故事單元號、場景號、鏡頭號和幀號可采用視頻片段的起止時間碼(SMPTE使用的時間碼格式為:小時:分鐘:秒:幀);各索引對象的索引信息可根據后續討論的索引模型創建。3、視頻信息的索引模型3.1視頻信息的內容模型視頻包含有豐富的信息內容,針對同一段視頻,不同的人、在不同的情形之下觀看,通常有不同的感受,即使是同一個人多次觀看同一段視頻,往往也會有不同的感受。針對視頻所包含的信息內容,許多學者從不同的學科出發,對其進行了較為深入的研究。其中,較有代表性的是文獻9提出的視頻內容分類模型,如圖2所示。該模型根據人類視覺感知和認識事物的規律,將視頻內容分為三個層次:第一層(低層)為用戶觀看視頻時首先感知的視覺信息,如顏色、紋理、形狀、運動等;第二層(中間層)為通過邏輯推理而得的、基于對象(Object)的感知信息,如視頻中包含(描述)的人物、地點、時間等;第三層(高層)為通過智能推理而得的、基于知識(Knowledge)的感知信息,它反映了視頻本身的語義,以及由此而來的感受,如某視頻片段為暴力鏡頭、歡慶場景、劫機事件等等。這種視頻內容建模方式為基于內容的視頻信息索引提供了有益的指導。3.2視頻信息的描述需求與索引模型視頻信息內涵的豐富性、用戶檢索需求的多樣性,決定了在對視頻信息進行索引時,應盡可能地從各個層次和側面進行全方位的描述。根據MPEG7的目標要求10,對視頻信息的描述至少應包括如下的信息:(1)有關內容的產生和發展進程的描述信息(如導演/作者、標題、版本等);(2)與內容使用有關的信息(如版權、使用歷程、宣傳計劃等);(3)有關內容存儲特性的信息(如存儲格式、編碼等);(4)有關內容的低層特性的信息(如顏色、紋理、音質、音調描述等);(5)從內容捕捉到的實體的概念化信息(如對象和事件,對象間的交互作用等);(6)利于瀏覽視頻內容的信息(如概要、變更、空間和頻率等);(7)關于用戶和內容交互作用的信息(如用戶選擇、使用歷史等)。根據MPEG7提出的描述要求及視頻內容分類模型,可以考慮采用如圖3所示的視頻索引模型。在該索引模型中,視頻信息的索引分為外部信息索引和基于內容的索引。外部信息索引是指基于視頻文檔外部的、不依賴于其內容的信息索引,用于視頻文檔的標識和檢索,如標題、作者、時間、文檔大小、存儲格式與編碼格式、使用信息(軟硬件要求、使用要求、版權等)等等。基于內容的索引又可以分為結構索引、低層特征索引、中間層對象索引和高層語義索引,后三種索引與圖2所示的視頻內容模型相對應。結構索引是指節目、場景、鏡頭、幀之間的層次結構與關系等;低層特征索引是基于視頻信息的物理特征信息(如顏色、紋理、運動、音質、音調等)進行索引;中間層的索引是對視頻中可識別對象(如時間、地點、人物等)的索引;高層語義索引用于描述視頻中包含的事件及相關的感受。3.3視頻對象與索引類型的關系不同(層次)的視頻對象對應著不同的索引,其對應關系如表1所示。幀的索引包含低層特征索引、中間層對象索引和高層語義索引。其中,低層特征可以自動地提取,中間層對象可以采用人工或半自動化(基于圖像識別技術)的方式進行標引,高層語義可以采用人工輸入方式進行標引。表1視頻對象與索引類型索引外部信息結構索引低層特征中間層對象高層語義對象索引索引
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 增強信心的2024年民用航空器維修人員執照考試試題及答案
- 高級審計解析試題及答案分享
- 消防風險管控策略試題及答案
- 財務管理案例分析試題及答案
- 2025年中學教師資格考試《綜合素質》教育案例深度剖析真題及答案
- 2025年鄉村醫生考試:農村急救技能操作模擬試題及答案解析
- 2025年初中地理學業水平考試模擬卷(地理實驗探究實驗報告評價要點)及答案
- 2025年消防行業趨勢試題及答案
- 2025年醫保知識考試題庫及答案:醫保目錄解讀與醫療保險制度試題試卷
- 2025年調酒師職業資格考試模擬試題及答案解析集錦
- 在線網課知慧《數智時代的商業變革(山大(威海))》單元測試考核答案
- 中外比較文學研究專題智慧樹知到期末考試答案2024年
- CO2氣體保護焊-基本操作方法(焊接技能)
- (高清版)TDT 1012-2016 土地整治項目規劃設計規范
- 人工智能在水土保持中的應用
- 鄉村振興中的鄉村安全與穩定維護
- 營銷策劃 -菌小寶益生菌2023品牌介紹手冊
- 夫妻婚內房產贈與合同范本【專業版】
- 馬克思主義基本原理智慧樹知到課后章節答案2023年下湖南大學
- (完整版)數字信號處理教案(東南大學)
- 第三章-綠色植物與生物圈的水循環-課件
評論
0/150
提交評論