


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
圖像檢索中的元數(shù)據(jù)分析
1、引言隨著計算機和網(wǎng)絡(luò)的普及,人們對數(shù)字圖像信息的需求與日俱增,有關(guān)圖像檢索、存儲方面的技術(shù)逐漸受到重視,并得到了快速發(fā)展。圖像檢索技術(shù)主要分為基于內(nèi)容圖像檢索(CBIR)和基于文本圖像檢索(TBIR)兩大類。TBIR是借用文本索引技術(shù),手工將圖像文件內(nèi)容標(biāo)注為一系列關(guān)鍵字,并對關(guān)鍵字建立索引。這種檢索技術(shù)對圖像處理的技術(shù)性要求不是太高,且操作方便,便于理解,在圖像檢索中應(yīng)用得比較廣泛,人們的研究重點已相應(yīng)轉(zhuǎn)移到了基于文本的圖像元數(shù)據(jù)標(biāo)準(zhǔn)的制定上:希望通過對元數(shù)據(jù)標(biāo)準(zhǔn)的完善來更加準(zhǔn)確地刻畫圖像的特征,以更好地滿足檢索需求。圖像元數(shù)據(jù)繼承并發(fā)展了對TBIR的研究,TBIR和圖像元數(shù)據(jù)也因此一直有著較為緊密的聯(lián)系。
而自從CBIR提出以后,其較強的技術(shù)性及在考古、醫(yī)學(xué)等專業(yè)內(nèi)的高度適用性很快引起了相關(guān)研究及應(yīng)用領(lǐng)域人員的重視。CBIR突破了傳統(tǒng)檢索技術(shù)的局限,直接對圖像內(nèi)容進(jìn)行分析,抽取特征和語義,利用這些內(nèi)容特征建立索引并進(jìn)行檢索,同時融合了模式識別、計算機視覺及圖像理解等技術(shù),雖然目前仍只在一些專業(yè)領(lǐng)域內(nèi)研究,但隨著MPEG-7的推出,其使用范圍大大擴展,人們對它的發(fā)展前景無疑是看好的。
然而在熱點背后,我們也應(yīng)該看到,無論是對元數(shù)據(jù)的研究還是對CBIR的討論,以往都局限于各自的范圍,CBIR和TBIR在被論述時常常是建立在兩者不和諧的基調(diào)上,它們各自所對應(yīng)的元數(shù)據(jù)集之間很難兼容,CBIR和圖像元數(shù)據(jù)聯(lián)系也相對薄弱。面對這樣一種不協(xié)調(diào)的情況,筆者認(rèn)為,應(yīng)該站在一個新的相對統(tǒng)一的層面上,以用戶需求作為出發(fā)點,重新看待兩種圖像檢索技術(shù)及其相互之間的關(guān)系,而作為兩種檢索技術(shù)支撐基礎(chǔ)的圖像元數(shù)據(jù)則應(yīng)成為它們相互補充和融合的平臺——而不是區(qū)分它們的一個指標(biāo)。為此,本文對幾個有代表性的,使用較為廣泛的圖像元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行了考察,希望能在此基礎(chǔ)上對兩種圖像檢索技術(shù)的融合問題提供一個側(cè)面的依據(jù)。2、圖像元數(shù)據(jù)及相關(guān)標(biāo)準(zhǔn)評價數(shù)字圖像可供檢索的屬性主要有以下幾方面:①圖像創(chuàng)建信息;②圖像的顏色、紋理、形狀等原始特征;③物體的布局、擺放形式;④對圖像表現(xiàn)事件的描述;⑤特定的人、地點、事件;⑥和圖像相關(guān)的主觀感情[1]。作為圖像元數(shù)據(jù),無論是基于何種技術(shù),在對圖像進(jìn)行描述時,都必須要盡可能準(zhǔn)確地反映這些特征,即圖像元數(shù)據(jù)的選擇與制定要受到圖像特征這一客觀因素的制約,這是圖像元數(shù)據(jù)與一般元數(shù)據(jù)的主要區(qū)別所在,下面就VRACore,MOA2,CDL,RLG,TMD,METS,MPEG-7等7種圖像元數(shù)據(jù)標(biāo)準(zhǔn)作簡要介紹。2.1VRACore3.0
1993年,視覺資源協(xié)會(VisualResourcesAssociation,VRA)為了更好地管理、組織和交換視覺資料資源,制定了視覺資源核心類目(TheCoreCategoriesforVisualResources,簡稱VRACore)[2],最新版本為3.0版(2000年6月),由17個類目組成,每個類目相當(dāng)于其他元數(shù)據(jù)標(biāo)準(zhǔn)中的一個元素。
該標(biāo)準(zhǔn)建立目的是為了實現(xiàn)網(wǎng)絡(luò)中圖像以及視覺資源的共享,所以與主要用于存儲的元數(shù)據(jù)集相比,這些元素在完整地描述一個圖像資源方面并沒有更多的優(yōu)勢[3]。該標(biāo)準(zhǔn)所涉及到的圖像特征有相當(dāng)一部分是屬于語義層次上的,對圖像顏色、紋理等原始特征的描述較少,可以較好滿足用戶根據(jù)圖像抽象特征進(jìn)行的檢索,尤其適用于藝術(shù)類圖像資源的管理。2.2MOA2元數(shù)據(jù)
MOA2(TheMakingOfAmericaⅡ)是數(shù)字圖書館聯(lián)盟(DigitalLibraryFederation,DLF)進(jìn)行的一個數(shù)字圖書館研究項目,它將圖像元數(shù)據(jù)分為三大類:①描述性元數(shù)據(jù),主要用于發(fā)現(xiàn)、識別和定位數(shù)字圖像,對此MOA2推薦使用已有標(biāo)準(zhǔn)(如:MARC、DC、EAD等);②結(jié)構(gòu)性元數(shù)據(jù),是與數(shù)字圖像的呈現(xiàn)有關(guān)的元數(shù)據(jù),用于描述數(shù)字圖像之間的關(guān)系以及數(shù)字圖像的顯示格式等信息,包括描述一個完整對象的元數(shù)據(jù)和描述數(shù)字對象的元數(shù)據(jù)兩類;③管理性元數(shù)據(jù),主要是數(shù)字圖像的產(chǎn)生信息、識別信息、版權(quán)信息等。該標(biāo)準(zhǔn)的重點在于結(jié)構(gòu)性元數(shù)據(jù)和管理性元數(shù)據(jù)[2]。
MOA2在管理性元數(shù)據(jù)方面較VRACore而言,更為詳細(xì),對圖像的描述也更為專業(yè)化;對圖像之間的關(guān)系有比較完整的描述機制是其一大特色,這對圖像資源建設(shè)中結(jié)構(gòu)層次的建立很有益處。在對圖像特征的表達(dá)上,對原始特征的描述有較強的技術(shù)性,這反映在管理性元數(shù)據(jù)和結(jié)構(gòu)性元數(shù)據(jù)兩類元數(shù)據(jù)的設(shè)置上;在對圖像主題的描述方面,主要依賴于所采用的描述性元數(shù)據(jù)的標(biāo)準(zhǔn)。2.3CDL元數(shù)據(jù)
CDL(CaliforniaDigitalLibrary)是加利福尼亞大學(xué)提供的數(shù)字資源網(wǎng)絡(luò)門戶為其數(shù)字圖像的質(zhì)量、格式、存儲和訪問制定的一系列標(biāo)準(zhǔn),基本采用MOA2的元數(shù)據(jù)定義,也將元數(shù)據(jù)分為描述性、結(jié)構(gòu)性和管理性元數(shù)據(jù)三類,重點也在后兩類上[2]。對于描述性元數(shù)據(jù),和MOA2類似,CDL允許各個使用者采取不同的元數(shù)據(jù)集,只需DescriptiveMetadataType元素中說明采用的元數(shù)據(jù)集的名稱種類。CDL將數(shù)字對象劃分為簡單數(shù)字對象和復(fù)雜數(shù)字對象,并為它們分別定義元數(shù)據(jù),這一點與MOA2的對象與子對象類似。MOA2和CDL都是注重管理性元數(shù)據(jù)和結(jié)構(gòu)性元數(shù)據(jù)的元數(shù)據(jù)集,劃分標(biāo)準(zhǔn)基本一致,以結(jié)構(gòu)性元數(shù)據(jù)為例:兩個標(biāo)準(zhǔn)中的結(jié)構(gòu)性元數(shù)據(jù)有近一半的具體元素是相同的,只是分屬子類別有所不同,除此之外,MOA2對圖像描述性的技術(shù)參數(shù)更多一些;而CDL則更符合結(jié)構(gòu)性元數(shù)據(jù)的性質(zhì),將簡單數(shù)字對象和復(fù)雜數(shù)字對象放在一個子集中,同時附以相應(yīng)的參照,可以更好地反映圖像文件之間層次關(guān)系。在對圖像原始特征描述上CDL比MOA2更進(jìn)一步,技術(shù)性也有所加強,但主要是服務(wù)于圖像管理和顯示輸出。這兩個元數(shù)據(jù)標(biāo)準(zhǔn)在圖像管理方面可以較好地滿足用戶要求,雖然是基于文本技術(shù)的,但是對圖像原始特征的描述非常接近于專業(yè)的圖像信息技術(shù)。2.4RLG存儲元數(shù)據(jù)集
1998年,ResearchLibraryGroup(RLG)成立了一個工作組,專門研究存儲性元數(shù)據(jù)。他們在DC和USMARC的基礎(chǔ)上提出了他們認(rèn)為是對數(shù)據(jù)文件至關(guān)重要的16個元素。由于該元數(shù)據(jù)集主要作用于數(shù)字圖像的存儲,所以版權(quán)、使用權(quán)等方面的信息沒有納入在內(nèi),文件類型方面的因素也被酌情忽略[4]。
該元數(shù)據(jù)集主要滿足的是圖像存儲需要,偏重于管理性元數(shù)據(jù),其元素大多反映的是圖像的原始特征,雖然技術(shù)性較強,但比較簡單,沒有涉及語義、概念層次上的特征,所以只能被一些專業(yè)的圖像資源管理組織在圖像存儲時采用,不僅不適用于一般用戶在互聯(lián)網(wǎng)上查找圖像,而且在圖像檢索專業(yè)領(lǐng)域內(nèi)也無法推廣使用。2.5NISODraftStandard:DataDictionary-TechnicalMetadataforDigitalStillImages(TMD)
該標(biāo)準(zhǔn)于1999年由美國國家信息標(biāo)準(zhǔn)局、圖書館情報資源委員會和研究圖書館協(xié)會三個組織召開專家會議討論制定。制定該標(biāo)準(zhǔn)目的在于推動圖像處理中驗證、管理、傳輸?shù)燃夹g(shù)的應(yīng)用。與會專家分別從圖像特征、圖像制作與復(fù)制、圖像確認(rèn)與完整性三個方面提出了一系列供參考的元素,希望從中整合出最后的元數(shù)據(jù)元素集[2]。該元數(shù)據(jù)集與RLG存儲元數(shù)據(jù)集有著類似的風(fēng)格,但卻更為詳細(xì)和全面,技術(shù)性強是它最主要的特征。在對圖像內(nèi)容的描述上,有關(guān)圖像原始特征的元數(shù)據(jù)更為全面,充分反映了圖像在色彩、層次上的特點,向CBIR又跨進(jìn)了一步,但由于它仍是基于文本的,這些參數(shù)并不能被大多數(shù)互聯(lián)網(wǎng)用戶所理解,只限于圖書情報中圖像資源管理及應(yīng)用專業(yè)領(lǐng)域內(nèi)的使用。3、從圖像元數(shù)據(jù)標(biāo)準(zhǔn)看TBIR與CBIR圖像元數(shù)據(jù)是圖像檢索的基礎(chǔ)和依據(jù),直接關(guān)系著檢索入口,它所采用的圖像特征,對用戶檢索采用的相應(yīng)策略和效果有著直接影響。一定程度上,元數(shù)據(jù)標(biāo)準(zhǔn)的制定可以促進(jìn)檢索技術(shù)發(fā)展;另一方面,圖像檢索技術(shù)的實現(xiàn)和使用情況也反映了元數(shù)據(jù)標(biāo)準(zhǔn)是否合理:這兩方面是互相影響、互相牽制、互相促進(jìn)的。
目前基于文本的圖像元數(shù)據(jù)標(biāo)準(zhǔn)還是占大多數(shù),應(yīng)用廣泛,可以滿足描述、管理等多方面需求,現(xiàn)有的大多數(shù)圖像搜索引擎所采用的都是基于文本的檢索方式;而CBIR由于缺少相應(yīng)標(biāo)準(zhǔn),總體來說尚未成熟,大多數(shù)基于內(nèi)容的圖像檢索系統(tǒng)采用的元數(shù)據(jù)集各成體系,相互之間很難兼容。但隨著MPEG-7的推出以及圖像元數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)展,相關(guān)的技術(shù)問題會逐步得到解決。所以,從應(yīng)用情況來說,CBIR和TBIR各有其優(yōu)勢所在。
從兩種檢索技術(shù)自身來看,它們也是各有特點,由此也帶來了它們各自較為固定的用戶群。作為圖像領(lǐng)域研究熱點的CBIR在技術(shù)上無疑比TBIR更為先進(jìn),在滿足用戶需求上的優(yōu)勢也是顯而易見。首先,描述圖像資源時,采用的是顏色、紋理、形狀等特征,更為直觀和客觀,避免了TBIR中資源管理者著錄時所帶有的主觀傾向[7];其次,在醫(yī)學(xué)、考古等專業(yè)領(lǐng)域內(nèi),根據(jù)紋理、顏色等特征進(jìn)行的檢索需求較多,這是TBIR所難以解決的;再次,TBIR雖然也可以描述圖像的部分原始特征,但在應(yīng)用上因其技術(shù)性較強因而存在一定難度,非專業(yè)人員往往難以理解其內(nèi)在本質(zhì),對于普通用戶來說,CBIR可能更容易滿足他們根據(jù)圖像原始特征的圖像檢索,這對他們來說更為簡單方便。可以看出,TBIR在圖像管理方面更為有利,CBIR則在圖像檢索方面有更大的發(fā)展空間。但也應(yīng)該看到的是,雖然CBIR在技術(shù)和理論上更為先進(jìn),但它并不能解決所有的圖像檢索問題,比如它暫時還不能較好地揭示圖像在語義層次上的內(nèi)容,而這恰恰是TBIR的長處所在,這也是MPEG-7雖然是以建立描述基于內(nèi)容的元數(shù)據(jù)為目的,但在標(biāo)準(zhǔn)中也納入了基于文本的主題性的元數(shù)據(jù)的原因之一;另外,CBIR在存儲和檢索圖像時,要計算顏色、紋理、形狀等表征,必要時還需要對這些數(shù)據(jù)進(jìn)行存儲,這就比TBIR對計算
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨床常用麻醉藥物
- 2025年中國蘆薈美白霜行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2021-2026年中國無線演示器行業(yè)投資分析及發(fā)展戰(zhàn)略研究咨詢報告
- 叢臺區(qū)東門外小學(xué)小學(xué)三年級下冊聲音與生活
- 球墨鑄鐵用生鐵項目投資可行性研究分析報告(2024-2030版)
- 2025年中國代餐輕食行業(yè)市場運行現(xiàn)狀及投資戰(zhàn)略研究報告
- 2025年中國食用甜味劑(調(diào)味劑) 行業(yè)市場調(diào)研分析及投資戰(zhàn)略規(guī)劃報告
- 中國儲水池凈化控制劑行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告(2024-2030)
- 中國廢舊電視機行業(yè)市場深度評估及投資戰(zhàn)略規(guī)劃報告
- 有支承面碟形彈簧行業(yè)深度研究分析報告(2024-2030版)
- 終止妊娠協(xié)議書模板
- 2025年光伏產(chǎn)業(yè)技能競賽理論考試題庫(含答案)
- 新能源汽車動力電池維護(hù)技巧試題及答案
- 期末測試卷(含答案含聽力原文無聽力音頻)-2024-2025學(xué)年閩教版英語六年級下冊
- 軍訓(xùn)教學(xué)考試題及答案
- 百世物流抖音平臺運營策略研究
- 深圳市人才集團(tuán)筆試題庫
- 冶金安全培訓(xùn)課件
- 04.(發(fā)布)黑龍江省2025年度定向招錄選調(diào)生崗位計劃表(縣市區(qū)直)
- 工控機管理制度
- 軟件產(chǎn)品交付流程
評論
0/150
提交評論