2013第六屆優秀第一階段特等獎_第1頁
2013第六屆優秀第一階段特等獎_第2頁
2013第六屆優秀第一階段特等獎_第3頁
2013第六屆優秀第一階段特等獎_第4頁
2013第六屆優秀第一階段特等獎_第5頁
已閱讀5頁,還剩37頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第六屆數學中國數學建模網絡 多模態分析在流行音樂風格分類中的應關鍵 多模 語義LDASVMs分形維數流行音樂分 要模型一是基于的流行音樂風格分類模型。隨著Web2.0日益健全完善,數據日益豐富且趨于穩,所表的語義信要比描述文檔中的更接近描述事物的特性,資源在音樂風格分類領域有著廣闊的應用。模型通過LDA分析器對抽取的其風格,同時也能彌補某些類別不夠準確、沒有得到公認的缺點。模型三是基于LDA和多類SVM[1]的流行音樂風格分類模型一和模型二都是在所選題 第六屆數學中國數學建模網絡 英要(選填( 總分的Thedevelopmentofsocialculture,popmusicstylediversification,integrationdevelopmentstyle,causecategoryclutter,ishardtoclassify,inappropriateclassificationofthedeficienciesofexisting.Inthispaper,usingthestep-by-step,complementaryadvantagesofthemodelclassificationmethodoflayerbylayerysismethodisgivenforthepopularstyle. Modeloneispopmusicstyleclassificationmodelbasedontags.WiththeWeb2isperfect,thetagdataincreasinglyrichandtendstobestable,semanticinformationlabelexpressiontogetclosertonatureofthingsdescribedthandescription tagresources,hasbroadapplicationinthefieldofmusicstyleclassification.ModelofcorpusmodelingthroughLDAyzerontheselectedtagresources.Toachievethepurposeofmusicstyleclassification. Modeltwoisthepopmusicstyleclassificationmodelbasedonsemantic.TheInternethasamasstextresources,whenwecrawlinthenetworkdata,ifapopmusicalwaysappeartogetherwithaparticularstyleofpopularmusic,sowethinkthepopmusichasaverycloserelationshipwiththisstyle,thuswecaninferitsstyle,alsocanmakeupforsomeoftheclasslabelisnotaccurateenough,notrecognized. ModelthreeisthepopmusicstyleclassificationmodelbasedonLDAandSVM.Modeloneandtwoarewithhighclassificationaccuracypremisewithalargenumberofrelateddatainthemusicfile,notforthelabel,lessdataoforiginalsongs,reflectsitslimitation,thistimeneedtoextractacousticfeaturesoftheunderlyingclassification.Thisisalsothecurrentaudioclassificationmethodiswidelyusedandmature,wasimprovedthroughthefeatureextractionandclassificationofthemainstreamalgorithm,notonlycanachievethebestclassificationaccuracy,butalsocanachievethebesttimecomplexity. Modelfouristhepopmusicstyleclassificationmodelbasedonfractaldimension.Thetraditionalclassificationmethodsbasedonacousticfeaturescomplexity,hugedata,highcost,doesnothavethedepthexpansionpotential,howtomakethenecessarytrade-offsbetweenaccuracyandoverhead.Thefractaldimensionoftheadvantageofusingonlyaone-dimensionalfeaturecandistinguishdifferenttypesoffractalcharacterizationofmusicistheinherentcharacteristicsofmusic--Basedonthesimilaritybetweenthepartandthewhole.Themethodhassimpleapplication,classificationaccuracy,theadvantagesoffaster. Nomodelcandealwithallcases,onlytheexpansionofitsadvantages,solve,complementaryeffectofclassificationtoachievetheideal,inthispaper,avarietyofoptimizationmodelisputforwardcomprehensive,multimodemusicstyleclassificationmethod,theclassificationismorenatural,reasonable,accurate.一、問題的重 問題背 問題重 二、問題分 基于數據的分類方 基于語義的分類方 基于聲學特征的分類方 基于分形的分類方 三、符號說明和問題假 四、基于的流行音樂風格分類模 抽取測試音樂的標題和音樂家的..........................................................................獲取測試音樂的.....................................................................................................基于LDA框架對進行分 數據分析和結 五、基于互聯網語義的流行音樂風格分類模 原始................................................................................................................互聯網語義關系特征向量的表 多個音樂風格同時存在的判 數據分析和結 六、基于LDA和多類SVM的流行音樂風格分類模 音樂特征分 語音信號預處 音樂特征提 使用LDA對特征向量進行降 使用多類SVM對特征向量進行分 數據分析和結 七、基于分形維數的流行音樂風格分類模 音樂與1/f噪 關于1/f噪聲的分形性 音樂的分形維數計 基于分形維數的音樂分類方 數據分析和結 八、模型評價及優 九、模型的推 十、參考文 一、問題的重述問題背景傳統的基于關鍵字的分類技術需要獲得音頻數據的信息,而當數據的信息不明確時,就有必要采用基于內容的方法來實現自動分類的需求。面對海量的多媒問題重述二、問題分析如藍調(Blues)、搖滾(Rock)等就是經常被用戶使用的檢索詞。目前,很多音樂例如Last.fm,等都相繼推出了基于風格的音樂檢索系統。因此,音樂風格的準音樂風格分類歷經了人工化和自動化兩個階段。早期,絕大多數的音樂都是對 所進行的“音樂工程(musicgenomeproject)”。雖然人工地對音樂進行風格標注取得了一定的成功,但是這樣做消耗了大量的人力成本、時間成本和成本;而更基于數據的分類方Web2.0Web2.0對其感的資源進行個性化標注,這其中自然也包括音樂資源,文獻[3]通過實驗證明了互聯網中的數據的分布服從無標度網絡的特征,在若干時間間隔后會趨于穩定,而且所表達的語義信息要比描述文檔中的更接近被描述事物的特性;文獻[4]通過大量的實驗數據驗證了用戶對歌曲進行標注時使用的與音樂專家基于語義的分類方法基于聲學特征的分類方法模型一和模型二都是在音樂文件具有大量相關數據的前提下具有較高分類準確率的,當音樂文最初發時,其相數據相而言較少,基和義的方法再用。此時需要提取音樂自身的聲學特征,然后根據這些特征對音樂進行風格分類。基于分形的分類方法目前絕大多數音頻分類算法集中在兩方面——音頻的特征提取以及根據音頻特征帶寬等,還有基于聽覺感受的MFCC(Mel-frequencycepstralcoefficients)倒頻譜系數等。另一方面,分類算法可利用模式識別和模式分類中已知算法,如CMM(Gaussianmixturemodel)高斯混合模型、NN(NeuralNetwork)神經網絡、HMMHiddenMarkovModel)隱馬爾可夫模型等。這些方法都存在著算法復雜,數據1,三、符號說明和問題假設i的歌曲名():的集合 ): t:音樂包含的的數目 |):每 P:兩個詞語同時出現在一個網頁中的概率 SC:頻譜質心SB:頻譜帶寬SF:頻譜通量????:總體離????:類間離散度矩????:類內離散度矩F:盒維數?????????DIMB()2nPop(Dream-Pop,ClassicalPop,Britpop,SynthR&B節奏Hip-Hop(Trip-Hop,Brit-Rap(Gangsta 四、基于的流行音樂風格分類模的框架如圖4.1所示。抽取測試音樂的標題和音樂家的本模型的研究更關注于實際應用,所以選取整首流行音樂作為分類對象。數據集共新世紀音樂(NewAge)、說唱音樂(Rap)。其中每個風格由10mp3格式的音樂組成。這些音樂是根據Last.fm列出的每個風格的經典專輯和經典曲目列表在、,首先使用jAudioTaggerLibrary從音樂文件包含的ID3中抽取音樂的標題獲取測試音樂的根據所獲得的音樂標題和音樂家以此作為輸入利用Last.fm提供的API接口(Track.GetTopTags)和音樂對應的。Last.fm是一個廣受歡迎的音樂網4.2:APITrack.GetTopTagsThreeO’clock的文 規定每首歌曲的數量范圍在到100之間,而且除了以外還可 被使用的頻率。圖4.2展示了通過API接口(Track.GetTopTags)上 數據的原始數據。圖4.3是展示了歌曲“ThreeO’clockBlues”的。以序號為1的歌曲為例,歌曲的標題和藝術家的分別是ThreeO’clockBlues和B.B.King。歷史上(時間2013年4月13日止)共有25個被用來標注這首歌曲,其中使用次數最多的就是blues,其頻率為100次。我們通過API接口(Track.GetTopTags)提取的是用戶根據自己的理解對于音樂進行的標注,具有很大的隨意性,而且其中的很多是與音樂風格信息無關的,因此我們需要對特征進行去噪、分離等處理。還是以歌曲ThreeO’clockBlues為例,我們需要將與風格無關的bbking等去掉;對于bluesrock我們需要從中分離出音樂風格Blues和rock并分別計數;而對于bluesguitar我們需要將blues提取出來并累積相加。圖4.3中的特征經過上述操作以后就會得到如圖4.4的結4.4:ThreeO’clock4.3:描述歌曲“ThreeO’clockBlues”基于LDA框架對進行分LDA是一種生成模型(generativemodel),也就是說,與直接根據觀察到的文檔來進行預測不同,LDA首先假設了產生文檔的一個過程,然后根據觀察到文檔,來預測背后的產生過程是怎樣的LDA假設所有的文檔存在K個其實就是詞的分布),要在基于的音樂風格分類方法中,將用到LDA方法對由音樂組成的語料庫進行建模。根據文獻[5],在本文的方法中將類比于文檔中的詞,而將每首歌曲對應的假設K維向量α是的先驗分布的參數,K×V的矩陣是中詞的分布的參數(V),即()i個中出現詞的概率,那么生成一個文檔的分布、再生成N個、進而得到這篇文檔的N個詞的概率可以表示為: )∏ ) ∫ )(∏∑ ) ∏∫( )(∏∑( )( LDA的訓練過程就是求使得(D 就可以對一篇文檔的分布,以及每個詞所屬的進行預測,即求: LDALDA是說訓練集中的數據實際上就構成了由多個文檔所組成的語料庫,通過Gibbssampling算法的不斷迭代,可以求得矩陣β,也就可以得到每個屬于某個風格的概率,用(|)來表示。此時,定義基于的音樂風格分類方法如下: +為歌曲的集合,對于每首歌曲而言均有與之對應的集合()。定義集合 +為音樂的風格, () 。基于的音樂風格分類就是要求得函數F從而建立由 F可由下面的定義: | )表示被用來標注音樂的次數,t表示音樂包含的的數據分析和結論總的平均準確率趨近一個固定的值,大概為84%。五、基于互聯網語義的流行音樂風格分類模我們基于互聯網語義關系來對流行音樂風格進行分類是借鑒了C.McKay等人在文章[6]中音樂的文化特征和甑超等人在文章[7]中語義特征這一系列對音樂的評章等等。當我們在網絡上抓取數據的時候,如果一段流行音樂總與某個原始在我們的實驗中對于每一首歌曲我們都要通過搜索網絡資源計算歌曲名稱與各個是們過在一個網頁中的概率而得到,計算的是:P= 5.1其中,M(a,b)代表a和b同時出現的網頁的個數,C(a)代表只有a出現的網頁的””AND(”R&B”OR“節奏 “其中音樂與音樂家的對應關系如表5.1所示。RollingInTheCallMeCarlyRaeRB=(”R&B”OR”節奏”);Pop=(”Pop”);HH=(”嘻哈”OR“HIP-CM=(”ORBL=(”OR“Blues”);JA=(”爵士”OR“Jazz”);SO=(””OR“Soul”);RO=(”搖滾”OR“Rock”NA=(”NewAge”ORRP=(”Rap”OR“說唱”) TheDeep逝去的溫柔CallMeRollingInThe 文 互聯網語義關系特征向量的表示向量X表示,其音樂家與流行音樂風格的聯系緊密度用向量Y表示。那么流行音樂的互聯 多個音樂風格同時存在的判斷假定T(i)5.1數據分析和結論m=0.25,n=0.75的風格分類的準確性最高,可以達到83.2%。說明音樂家和流行音樂風格的緊密度Y的權間有限,本此次只是提出這個模型,實驗結果雖然較好,但是不能以一概全,需要六、基于LDA和多類SVM的流行音樂風格分類模型傳統的基于聲學特征的音樂風格分類方法最早由GeorgeTzanetakis如圖6.1所示,首先隨機地選定訓練樣本集合測試樣本集,其中的樣本都依次通過信號預處理、音樂特征提取和LDA降維這3個步驟,然后使用訓練樣本集中的特征向量對分音樂特征分析頻譜質心(Spectral頻譜質心又稱為頻譜亮度(Brightness),其定義為FFT能量譜中經能量的其中和表示FFTk個分量所對應的頻率值及其能量,KFFT變換長度和采樣率決定的FFT譜中頻率分量的數目。頻譜質心可以看做頻譜能量分布和樂器腔的特性密切相關。例如,作為低音樂器的長號由于銅管的效應頻譜帶寬(Spectral頻譜帶寬的定義為FFT譜中所有頻率分量與頻譜質心之間的距離的平方經能量加頻譜滾降度(Spectral其 為低頻累積能量占總能量的比例,對于音樂信 的取值可以設置在s頻譜通量(Spectral其中()ikNFFT分為若干子帶,對每一個子帶中的能量的分布進行了更為細致的統計分析。由前文的分析知,當外界激勵經過樂器腔時,受到效應的影響不同頻率能量重新分配,設第s子帶所包含的頻率在FFT ,為該子帶中頻率分量的個數,它們對應的能量 將頻譜分量的能量按降序排列得到能量有序序列 },其中(依據經驗設置為20%左右)的頻率分量的平均能量,即:前文討論了在單音音樂中如何結合參考樂譜提取音符的起始點并進而分析出音樂0敲擊強度曲線(Onsetcurve)6.2為了去信號波形中存在的毛刺,利用升余弦窗(RaisedCosineWindow)的敲擊強度曲線O()(其中 ,L為敲擊強度曲線的長度)中的峰值指示信號O()。如果音頻中周期性的出現敲擊點,則在敲擊點周期及其整數倍的位置自相關函小波變換系數直方圖(WaveletCoefficients與變換通過平移固定寬度的滑動窗口分析得到固定時域和頻域分辨率的思變換同類別音樂之間的可區分性。5-108(8-orderDaubechiesWavelet,Db8)濾波器組對信號進行7級分解得到8個子帶的小波變換系數。1(均值)、2(方差)3(偏語音信號預處理wave11.025kHz,16bit/sample。在特征提取之前,要對每一段音樂進行預處理。首先對信號進行預加重(參數為0.96),以提升高頻部分的能量;然后對每一首音樂進行分幀,幀長256點(約23ms),相鄰幀之間有128點(50%)的低于一閾值(10,音樂特征提取感知特征(Perc), 幀能量:該特征用每幀信號總能量的對數來表示,其中,()表示頻率處的譜密度, 子帶能量:信號的頻譜被分為4個子帶,[( ?)],[( ?)( ?)], ?)( ?)] ?) () ( (帶寬:信號頻譜成分與譜質心之差以能量進行的均值 ( (基音頻率特征。第法[6]采用Yule-Walker法估計經低通濾波后信號的AR譜,然后在一定范圍內(50~500Hz)進行峰值檢測,當峰值超過一定門限時,記錄峰值位置為基音頻率;第二種方法[7]對經低通濾波后信號進行中心削波,然后計算削波后信號的歸一化自相關函數,并對自相關函數在一定范圍內(50~500Hz)進行峰值檢測,計算基Mel(Mel-FrequencyCepstralCoefficient,MFCC):MFCCMel(1kHz1kHzkx(k),MFCC(L為MFCC的維數)使用LDA對特征向量進行降維復雜度太高或空間需求太大的問題,而且還可能會遇到維數冗余(excessivedimensionality)的。針對這些問題,一般有兩種可行的解決方法:一是重新設計因為它不但易于計算而且易于分析"實際上,線性方法將高的矢量投影到較低維一個n維向量,????????-??了進行降維,變換為低維向量,???? ????-??????Yx主成分分析(PrincipalComponent 線性判別分析(LinearDiscriminative 主成分分析PCA方法也稱為Karhunen-Loeve方法選擇一個降低維數的線性投影,使得所有投mm<n。則新的樣本向量{????????????}可以表示為: 其中W????稱為變換矩陣,W的所有列之間都是正交的。總體離散度矩陣(totalscattematrix)????:定義為: ????是所有樣本的均值對原樣本向量實施線性變換??????得到變換后向量伽,*??? ??????????PCA????????的選擇是使得投影后向量總體離散度矩陣的行列式最大的矩陣W,即: 線性判別分析LoAFLo(FISherLinearoiscriminative)[8情況下,類內的變化都存在特征空間的一個子空間中,因此各類是凸起并線性可分的,可以在使用線性投影的方法實現降維的同時保持類間的線性可分性。這就是人們喜歡在模式分類中使用線性方法進行降維的一個很重要的原因。LDA影方向,使得投影后的子空間中不同類間樣本的分離度盡可能大一些,而類內樣本盡量LDA定義類間離散度矩陣????定義類內離散度矩陣????其中????是類????中特征向量的均值,????是類????中的特征數。若????是非奇異的,則最佳投大的W,即: ??的廣義特征向量,它們分別對應于所有廣義特征值中m個最大 c1數上限是c-1,c是待分類的類別數。3-12是一個兩維分類的例子,其對比PCALDA在投影方向上的不同,圖中N=20,n=2,m=1由圖中可見,PCALDA特征點從兩維投影到一維,具體比較兩者的不同,發現PCA雖然使得點與點之間的距離變大,但實際上是把兩類點了在一起,導致不能用線性的方法將它們分開;而LDAF(LD)不但保留了類別間的可分性,而且取得了向量投影到一較低(N-c維,使得在該空間中類內離散矩陣????為非奇異的,這可以通PCA來實現;然后再通過LDA將所得特征向量降維c-1維。具體 圖6.6LDA用于音樂特nc,nc,cn維向量進入分類器進行音樂分類。由于投影后的c維子空間中不同類間樣本的分離度較大,使用SVM對特征向量進行分類XF后變為線性可分。不同的非線性變化?()對應著下式中不同的核函數K(??),目前經常用于模式分類 類別,對于每一個非葉節點,在它的兩個子節點之間使用SVM進行兩類分類,勝利者被具體過程如下圖6.8所示數據分析和結論 s其中??為每幀信號中的第n個采樣值,而 其中漢明窗 s(π )著可以在該段音樂中提取N8維的感知特征向量NLMFCC特征向量,針感知特征:計算每一段音樂8維感知特征向量的均值和標準差,并將它們級聯到一個8X2=16維的特征向量,再加上比率特征(檢測出有基音的幀數/總幀數)就得到了代表感知特征的17維特征向量。接著,在整個訓練集中對每一維特征進其中????是感知特征向量中的第i個元素,????是訓練集中所有感知特征向量的第i個元素的均值,????i得到了最終的感知特征向量集(17維。MFCC1中的步驟計算每一段音樂信號L維MFCC系數的均值和標準差,但是并不進行歸一化處理,這樣就得到了2LMFCC特征向量。對感知特征進行歸一化而MFCCMFCCMFCC題就是如何將它們按照一定的權重級聯成一個長的向量來代表它們所對應的那一段音樂。具體的級聯過程如下:其標準差之和為s1=17x1,而MFCC特征 σ,/s24400作品。每種音樂類型100首。數據庫來自CD、mp3、數據庫和無線電廣播。每 七、基于分形維數的流行音樂風格分類模型音樂與1/f變換相當于隨機自仿射變換,這樣就構造出了某種程度的自相似性。VossR.F.發現幾乎所有的音樂都在模仿???噪聲(其中f為噪聲的頻率)[9-10]。20Hz???噪聲的特點。分析在七個不同風格的流行音樂(classic,hip-hop,newage,jazz,rock,rapandpop)???噪聲。為了便于分析,我們用了20首不同風格的音樂,記錄格式為[1],噪聲有三種不同的類型,如??????。DNA的結構特性。Voss等的了1/f性在Vss的發表后,已經有一些關于??意味著,有一e????分析更加重要。此20Hz是否能區分不同文化和風格的音樂。白噪聲是其相關處處為0。這意味著,在白噪聲,其不包含任何信息。它在整個頻??噪聲由運動產生,是小顆粒在液體中的運動。有時它被稱為紅色的噪???,這意味著,這將非常強烈依賴與它的過去狀態。粉紅噪聲(為了便于分析,我們用了20首不同風格的音樂,記錄格式為16KHz,16位和單聲道件的功率譜的變換。了???低頻區域的結構特性,一些沒有。 明了在低頻區的???結構特性

7.2rap圖7.3和圖7.4為pop和rock風格的音樂顯示的功率譜。它清楚地表明,pop顯示???結構特性在低頻區相對較好,但rock???結構特性。圖7.3pop的功率 圖7.4classic的功率格音樂,評估出???在每首音樂中低于20Hz區域的結構特性。圖7.5顯示了七個不同風格的音樂低20Hz區域???的結構特性(垂直軸表示的程度(),橫軸的歌曲數量。正如預期的那樣,classic較好的顯示了???結構特性。由表7.1中所示的關于不同風格音樂在低于20Hz區域???結構特性的平均值,可以看到,classic表現了最好的???噪聲分析,pop表現第二,rap表現。這意味著,在低于20Hz區域的???噪聲可能不會顯示音樂的文化特點,但可以明顯的區分音 度123456Hip-7我們分析了在七個不同風格的流行音樂(classic,hip-hop,newage,jazz,rock,通過分析低于20Hz???噪聲的特點來區分音樂的風格。關于1/f噪聲的分形性質機自仿射變換,這樣就構造出了某種程度的自相似性。VossR.F.發現幾乎所有的聲是具有分形性質的,因樂也應該具有分形性質,這便為我們從分形的角度研音樂的分形維數計算分形維數實質上是Hausdorff豪維數,但由于Hausdorff豪維數極FRnNδ(F)δ,F少個數,則F的上、下盒維數定義為???I?????? Nδ( 和DIM( Nδ( FFDIM( Nδ( 選取合適的網格的最大邊長一般為2n(n為正整數對輸入的數據進行重采樣使采樣過后的數據點數等于網格的最大邊長加1把網格大小e分別設為2,4,8,?數N(e)。n+1率就是盒維數D。N(D(?log(k/e)基于分形維數的音樂分類方法據采用單聲道、采樣率為44.1kHz、精度為8位格式。所選音樂要求是各類音30296classical,100country,10696classic40它的為另一部分。現只對第一部分40首左右的classic音樂進行如程處理:隨機選取4首音樂作為第一小組。1列。對上步中的最大值與最小值做差,得出差值。如表1中的第四列。1:0.142、3、4小于0.1則第一組的相對差值默認為0。0.1154復上面2到4步。縱坐標為相對差值(如圖1。0(7.6)才完成此類音樂的訓練,得出此類音樂的維數范圍。如(7.2)中最后一行第二列,第三列即為此類音樂的408...............0classic7.7,1.67151.7296。第三類Hip-hop音樂,維數范圍的確定與classic音樂方法相同。7.8,維數范圍是1.7302~1.8233仍以classic音樂為例。其它兩類的測試過程與classic音樂相同。把這96首音樂作為測試集進試,測試過程如下:用程序計算所有96首classic音樂的維數,用上面測試集算出的classic音樂維

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論