一種快速的特定音頻指紋提取方法_第1頁
一種快速的特定音頻指紋提取方法_第2頁
一種快速的特定音頻指紋提取方法_第3頁
一種快速的特定音頻指紋提取方法_第4頁
一種快速的特定音頻指紋提取方法_第5頁
已閱讀5頁,還剩8頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 211一種快速的特定音頻指紋提取方法張 敏 1,2,歐陽建權 1,2,李澤洲 1,2,劉 煒 1,2(1. 湘潭大學智能計算與信息處理教育部重點實驗室,湘潭 411105; 2. 湘潭大學信息工程學院,湘潭 411105摘 要:針對當前音頻哈希指紋方法不足以滿足特定音頻 (如廣告 的實時監測問題,提出一種快速的特定音頻指紋提取方法,通過提取每 幀感知最相關的頻域信息,將其分為 33個頻帶,并提取相鄰 2幀相鄰頻帶的差異作為指紋值,每幀提 32個 0/1值。實驗表明,與現有方 法相比,該方法在保證音頻檢測準確性的同時,能實現指紋的快速提取。 關鍵詞:音頻;指紋提取;音頻哈希指紋法Fast Fi

2、ngerprint Extraction Method for Specific AudioZHANG Min1,2, OUYANG Jian-quan1,2, LI Ze-zhou 1,2, LIU Wei1,2(1. Key Laboratory of Intelligent Computing & Information Processing, Xiangtan University, Ministry of Education, Xiangtan 411105;2. College of Information Engineering, Xiangtan University,

3、 Xiangtan 411105【 Abstract 】 In view of the current audio hash fingerprinting method is not sufficient to meet the real-time monitoring for specific audio(e.g. advertising, this paper presents a fast fingerprint extraction method for specific audio. It extracts the information with the most relevant

4、 perception of each frame in frequency domain and divides the information into 33 bands. It extracts the differences between the equivalent bands from adjacent frames as the fingerprint. For each frame, 32 0/1 values are computed. Compared with existing method, this method ensures the accuracy of de

5、tection and extracts fingerprint rapidly at the same time.【 Key words】 audio; fingerprint extraction; audio hash fingerprinting method計 算 機 工 程 Computer Engineering第 36卷 第 2期Vol.36 No.2 2010年 1月January 2010·多媒體技術及應用 · 文章編號:1000 3428(201002 0211 03文獻標識碼:A中圖分類號:TP371 概述隨著互聯網與數字媒體技術的發展,每年都將新增

6、海量 的音頻數據,人們能夠更加方便、快捷、經濟地接觸到數字 媒體,多媒體數據也已成為互聯網信息高速公路上傳送數據 的主要部分。聲音媒體是除視覺媒體外最重要的媒體,占總 信息量的 20%左右 1。同時,大容量高速存儲系統為聲音的 海量存儲提供了基本保障,各行業對聲音媒體的使用越來越 廣泛。因此,如何從海量的聲音信息中快速檢索所需要的信 息已經成了亟需解決的問題。許多國家的廣播電臺必須為播放的音樂支付版稅, 因此, 版權所有者希望監測電臺播放,以確認所播放的音樂是否支 付版稅。即使在電臺可以免費播放音樂的國家,版權所有者 也有興趣監測電臺播放的統計數據。廣告客戶也希望監測電 臺及電視臺的廣告播出,

7、以驗證商業廣告是否按商定的時段 和按量播出。同時,國家監管部門也希望監測電臺和電視臺 是否播放違禁廣告。其他應用還包括電臺和電視臺的節目材 料統計分析和國家的法律實施強制播放監測等。然而,當今 媒體數據更新如此之快,要實現實時監測,必須有快速的搜 索策略。由于音頻信號本身的復雜性,傳統的檢索技術并不 適用于音頻領域,人的感知特性使得音頻的相似性度量變得 更為復雜多變。研究表明,對于一首歌曲即使改換相似的音 符,甚至拉長音符、改變間隔也還能保持原有聲音的幅度輪 廓等屬性 2。以往的音頻研究工作,尤其是音樂的信號分析 和檢索技術主要是基于符號表示 (如 MIDI ,但大多數現有的 數字音頻數據多以

8、無結構的聲音文件存儲,因此,符號表示 的應用很有限 3。目前,對音頻檢索的研究主要基于指紋展開,音頻指紋的研究分為 2個方向:(1基于水印嵌入的指紋方法。文獻 4提出一種基于混沌和系數均值統計特性的音頻指紋方案,通 過用戶信息生成的混沌映射初值應用混沌方法生成用戶指 紋,再根據小波系數統計恒定特性將指紋嵌入到每幀中,這 種方法具有一定的魯棒性,但需要嵌入多余的數據。 (2基于 內容的指紋方法。文獻 5提出一種魯棒的音頻哈希指紋方 法,對相鄰 2幀提取頻域能量的差異作為哈希指紋,但是這 種方法速度比較慢,不能滿足特定音頻 (如廣告 的實時監測。 鑒于此,本文通過改進文獻 5的哈希指紋方法,針對

9、MP3格式的廣告音頻,提出一種快速的特定音頻指紋提取方法。2 音頻指紋提取與匹配2.1 音頻指紋音頻指紋是音頻對象簡短的摘要。對指紋 F 和音頻對象 X 建立映射關系后,在音頻指紋識別時,只須在 2個相似的 音頻對象之間建立一種知覺平等的有效的機制,不通過比較 相對較大的音頻對象本身, 而是通過比較相關的指紋。 因此, 音頻指紋應具備以下性質:(1感知相關性。指紋中應盡可能多地包含感知相關的數 據,而感知不相關的數據應盡可能從指紋中清除。(2高效性。指紋應相對較小,以實現高效的檢索。 (3魯棒性。相似音頻的指紋應該盡可能的一致,應該盡基金項目:湖南省教育廳優秀青年基金資助項目 (06B095;

10、湖南省 研究生科研創新基金資助項目 (X2008yjscx19 212 可能地抗各種攻擊。2.2 音頻指紋提取本文通過對每幀 MP3數據提取一個 32位的 0/1值作為 指紋,共提取 (32×音頻幀數 個指紋值。每幀的 32個 0/1值 可以用一個 32位的數保存, 這樣提取出的指紋比原始音頻小 得多,符合指紋的高效性特征。指紋提取過程如圖 1所示。 F (n , 0F (n , 1F (n , 31圖 1 音頻指紋提取過程很多重要的音頻特征都是從頻域信息中獲得的,因此, 本文對每幀數據進行快速傅里葉變換 (FFT以獲得其頻域中 的信息。傅里葉變換的時間復雜度為 O (n log n

11、 ,選取的幀長 度越長,所需時間也越多,考慮到算法實時的要求,本文對 解碼出來的 MP3數據按 MP3數據的幀結構進行處理,即 1幀為 1 152個 PCM 數據,這樣可以實現在解碼的同時計算 出指紋值,不需要額外的數據處理。實驗表明其能達到實時 的要求。為了提取 32位的音頻指紋, 需要從快速傅里葉變換之后 的頻域值中選取 33個不重疊的頻帶。 這些頻帶的頻率范圍為 與人的聽覺感知最相關的 300 Hz2 200 Hz, 符合音頻指紋的 感知相關性特征。 把這些頻帶均分成 33等份, 計算每等份各 個頻域值的絕對值的和 S 。如用 S (n , m 表示第 n 幀第 m 個等 份的和值,用

12、F (n , m 表示第 n 幀第 m 個等份的指紋值,則:1if (, (, 1 (1, (1, 1 0(, 0 if (, (, 1 (1, (1, 1 0S n m S n m S n m S n m F n m S n m S n m S n m S n m +>=+這樣,每個音頻片段共提取 n 個指紋值, n 為音頻片段 的總幀數。2.3 音頻指紋匹配音頻指紋匹配要采用一定的計量方法來測度人類聽覺的 相似感覺。目前得到廣泛應用的相似性度量是在空間中定義 某種距離。設 s 1, s 2, s 3為 D 維空間中 3 個目標,則目標之間 的距離函數 d 應滿足以下要求 3:(1自相

13、似性:d (s 1, s 1=d (s 2, s 2=0; (2最小性:d (s 1, s 2 d (s 1, s 1 0; (3對稱性:s (s 1, s 2=d (s 2, s 1 ;(4三角不等性:d (s 1, s 2+d (s 2, s 3 d (s 1, s 3 。常用的距離函數主要是歐氏距離和城市距離,本文的匹 配中只需要比較指紋中 0/1個數的不同,因此,對每幀指紋 數據的匹配選用計算較簡單的城市距離,其計算公式為121(, DC k k k d s s x y =其中, x k 和 y k 分別是目標 s 1 和 s 2 提取的內容索引; D 表示 索引總數目。當對象 s 1

14、和 s 2的距離 d C (s 1, s 2 T 時, s 1和 s 2是相似的。3 實驗與分析實驗數據采用電視臺節目錄音 (立體聲、 44.1 kHz、 16位 采樣 , 包括湖南衛視、 廣東衛視、 四川衛視、 CCTV8、 CCTV10等十多個電視頻道的錄音。計算機配置:Pentium D 3.0 GHz CPU, 1 GB RAM,編程工具為 Visual C+ 6.0+Matlab 7.0。對 2種方法提取的指紋采用的檢索算法均為直接逐幀計算城市 距離,當 d C 12時,認為 2幀是相似的,然后再計算總相似 度,即相似的幀數 /總的幀數,當 2個音頻對象的相似度大于 0.65,即認為

15、是相同的音頻。關于測試音頻的選擇,從實際角度出發,應滿足以下 3個條件:(1由于測試音頻都是從某一個音頻片段中截取出來的, 如果只選取出現一次的音頻作為測試音頻,由于其波形數據 與待檢音頻片段完全一致,不能說明實驗效果,因此本文選 取現有音頻片段中重復次數較多的廣告作為測試音頻。(2盡量選取在不同音頻片段中都有出現的廣告作為測 試廣告,因為不同的音頻片段錄音的時間、環境等不同,可 以更好地驗證實驗的效果。(3選取不同長度的廣告以測試實驗效果, 包括長度為 4 s,5 s, 10 s, 15 s, 29 s的廣告。筆者在標記現有音頻片段時發現, 除了一些電視購物廣告很長外,其他廣告長度一般為以上

16、 長度。本文方法與哈希指紋法的檢索結果比較如表 1所示。表 1 2種方法檢索結果比較本文方法 哈希指紋法音頻片段總時長 4 h 35 min 7 s 4 h 35 min 7 s測試廣告數目 31 31 音頻片段數目 57 57 廣告實際個數 131 131 檢測到的個數 131 131 錯檢個數 0 0 漏檢個數 0 0 查全率 /(% 100 100 查準率 /(%100 100可以看出,在無任何攻擊的情況下, 2種方法的查全率 和查準率均為 100%。哈希指紋法 5對每個音頻只提取前 3 s的信息作為指紋,這樣,不管是幾秒長的廣告,都只對前 3 s的數據提取指紋,對時間長的音頻提取指紋雖

17、然可以達到實 時甚至非常快的效果,但是,一旦前 3 s的數據發生篡改或 受到噪聲的干擾, 那么, 提取的指紋將發生面目全非的改變, 對檢索結果的影響是巨大的。如果提取音頻整個長度的信息作為指紋,使用本文的方 法和哈希指紋法 5提取不同長度音頻指紋的時間花費 (只包括從 wav 數據中計算指紋的時間,并不包括解碼所需的時間 如圖 2所示。51015202530音頻時長 /s哈希指紋法 本文的方法圖 2 2種方法提取指紋的速度比較實驗數據采用電視臺節目錄音 (立體聲、 44.1 kHz、 16位采樣 , 包括湖南衛視、 廣東衛視、 四川衛視、 CCTV8、 CCTV10 213等十多個電視頻道的錄

18、音。計算機配置:Pentium D 3.0 GHz CPU, 1 GB RAM,編程工具為 Matlab 7.0。從圖 2可以看出,本文的方法比哈希指紋法 5在速度上有顯著提高。哈希指紋方法每幀數據約為 0.37 s, 且重疊比例為 31/32。 為方便計算,本文對 44.1 kHz的數據每幀長度取 16 384,每幀移動長度為16 384×1/32=512, 則 長 度 為 N 的 音 頻 的 幀 數 為 (N - 16 384+512/512。提取指紋的時間主要為傅里葉變換所花費 的時間 t f , 其時間復雜度為 O (n log n , 則哈希指紋法 5所需時 間為t h =

19、 16 384×lb 16 384×(N -16 384+512/512在本文方法中,每幀數據長度為 1 152,無重疊。長度為N 的音頻的幀數為 N /1 152,提取指紋的時間為t n =1 152×lb 1 152×N /1 15216384lb16384(16384512 /5121152lb1152/1152fn t N t N × × += × ×由此可知哈,希指紋法 5所需時間為本文方法的 30倍。在實驗中,本文對其中一半以上的測試音頻 (包括長度為 4 s, 5 s, 15 s, 29 s的廣告 在

20、檢測過程中進行了實時播放,即邊檢 邊播放,播放過程中并無中斷,表明可以達到實時要求。4 結束語本文提出一種快速的特定音頻指紋提取方法,通過對整 個音頻依次提取相鄰 2幀的差異作為指紋值,無須嵌入其他 數據就能實現指紋的快速提取,滿足特定音頻檢索的實時要 求,在音頻局部發生篡改或噪聲干擾時,仍能保證檢索的準 確性。 后繼工作將在提高指紋相似度和提高檢索效率上展開。參考文獻 1 李恒峰 , 李國輝 . 音頻信息檢索 J. 計算機工程 , 1999, 25(8:78-80. 2 Foster S, Schloss W, Rockmore A J. Towards an Intelligent Edi

21、tor of Digital Audio: Signal Processing MethodsJ. Computer Music Jounal, 1982, 6(1: 42-51.3 Uitdenbogerd L, Zobel J. An Architecture for Effective MusicInformation RetrievalJ. Journal of the American Society for Information Science and Technology, 2000, 2(5: 34-37.4 周鴻飛 , 楊曉元 . 基于混沌和系數均值統計特性的音頻指紋方案

22、J. 計算機工程 , 2008, 34(13: 142-144.5 Haitsma J, Kalker T, Oostveen J. Robust Audio Hashing for ContentIdentificationC/Proc. of CBMI01. Brescia, Italy: s. n., 2001.編輯 顧姣健(上接第 193頁 了 FC 噪聲的小波分解, 利用小波實現 FC 的消噪變異, 并進 行了實驗。本文的工作表明,這種方法是可靠和可行的,對 于拓展浮點數編碼遺傳算法的應用空間具有積極的意義。參考文獻1 Eshelman L, Schaffer J. Real-cod

23、ed Genetic Algorithms and IntervalSchemataM. San Francisco, USA: Morgan Kaufmann Publishers, 1993: 187-202.2 雷得明 . 多維實數編碼遺傳算法 J. 控制與決策 , 2000, 15(2:239-241.3 李 碧 , 林土勝 , 廖 亮 . 基于變異的緊湊遺傳算法 J. 計算機工程 , 2008, 34(4: 207-208.4 Ondelettes M Y. Filtrers Miroirs en Quadrature et TraitementNumerique de Limage

24、M. Hermann, Paris: s. n., 1992.5 Øksendal B, Proske F. White Noise of Poisson Random MeasuresJ.Potential Analysis, 2004, 21(4: 375-403.6 Cui Mingyi. An Improved on Float-coded Genetic Algorithm Basedon Wavelet Denoising MutationC/Proc. of the 7th World Congress on Intelligent Control and Automation. S. l.: IEEE Press, 2008: 2053-2058.編輯 顧逸斐(上接第 210頁 比較圖 5、圖 6可以看出,改進算法的恢復效果較好。 從圖 7也可以看出,改進算法支持嵌入式碼流特性。表 1為 改進算法與原

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論