




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
摘要:如何準確評估嫌疑人的影響力是偵破團伙犯罪的關鍵,為此,在PageRank算法的基礎上,結合團伙犯罪的網絡結構特性,提出團伙犯罪中嫌疑人犯罪影響力評估模型.該模型首先結合已掌握的作案信息將團伙犯罪網絡轉化為有向加權網絡,再根據中間中心度、接近中心度兩大網絡特性確定罪犯影響力轉移矩陣,最后該模型以實際的案例為實驗數據得出具體的嫌疑人犯罪影響力,并以兩種成熟的模型為對比模型,實現結果顯示該模型的評估結果與實際案件結果擬合度較高,且準確率也高于對比模型,驗證了該模型具有較高的準確性和可行性.關鍵詞:PageRank;網絡結構特性;團伙犯罪;嫌疑人影響力近年來,隨著通信技術的發展,團伙犯罪的作案手段也隨之發生了巨大改變,呈現出結構性、隱秘性、動態性等特點,這給公安機關的偵破工作帶來了一定的挑戰,特別是近些年頻發的涉黑團伙犯罪、經濟團伙犯罪以及網絡團伙犯罪.研究表明,目前的犯罪團伙呈現出一定的社會網絡特性,所以很多學者將社會網絡分析方法應用于團伙犯罪案件的分析中,主要涉及兩大領域.第一,團伙犯罪網絡組織結構的研究,比如趙迪等[1]通過研究犯罪嫌疑人的地域特征構建共同犯罪網絡模型,并對共同犯罪現象及其原因進行探究;ZHANG等[2]充分研究了人口拐賣案件中犯罪成員的人際關系網絡;同時,MCILLWAIN[3]的研究也表明犯罪人之間的人際關系是團伙犯罪的一個決定性因素;也有研究成果表明目前的地域性犯罪是團伙犯罪的一個重要性傾向,并以此分析地域性犯罪的性質和特征[4-6];還有一些通過分析網絡結構特征,比如網絡密度、聚集系數、中心性分析團伙犯罪網絡[7-10].第二,團伙犯罪網絡中的人員以及人員關系研究,比如孫萌[11]通過PageRank算法對犯罪人的影響力以及用戶關系強度進行研究;FREEMAN[12]對犯罪網絡中的每一個成員進行了研究,得到每一成員對整個網絡的影響程度;李瑞東[13]通過數據挖掘技術設計了犯罪成員的組織關系模型.在團伙犯罪偵查中,能夠有效識別關鍵人物,進而掌握犯罪組織網絡結構是其中最為重要的一環.目前,關于團伙犯罪網絡結構的研究雖然層出不窮,但是真正能夠落地實施的卻不多,究其原因主要有二:一是實驗數據有限,算法的有效性難以保證;二是研究方法過于局限,算法的可移植性較差.因此,本文在大數據背景下,提出團伙犯罪中基于PageRank算法以及網絡結構特性的嫌疑人犯罪影響力評估模型(CIS-PNSC,amodelforassessingthecriminalinfluenceofsuspectsingangcrimesbasedonPageRankalgorithmandnetworkstructurecharacteristics).該模型主要用于識別團伙犯罪中的關鍵人物,并對鎖定的犯罪嫌疑人進行重要性排序.該嫌疑人犯罪影響力評估模型首先將團伙犯罪網絡轉化為有向加權網絡,其次根據網絡結構特性確定犯罪影響力轉移矩陣,最后根據PageRank算法計算出團伙犯罪中嫌疑人的犯罪影響力.1研究方法1.1PageRank算法PageRank算法將萬維網看成一幅看似雜亂而有章可循的有向圖,網頁對應節點,超鏈接對應邊,然后利用隨機過程的相關知識計算得出網頁的權值[14].如圖1是由5個網頁構成的一幅網絡有向圖.PageRank算法的核心思想可總結為如下三點.(1)鏈接即肯定:在萬維網中,當一個網頁A含有很多連入鏈接時,表明網頁A是被其他網頁肯定的,在計算網頁權值時,其他網頁會將自己的權威值分配給自己所指向的網頁A.(2)鏈接即貢獻:在萬維網中,任何一個網頁會平均將權威值分配給自己所指向的網頁,同理,任何一個網頁的權威值由所有指向自身網頁的權威值決定.(3)權威確定權威:若萬維網中某一權威網頁A指向另一網頁B時,網頁B也將變成權威網頁,因為在計算網頁B的權威值時,權威網頁A對網頁B的貢獻值會遠遠大于其他指向網頁B的非權威網頁的貢獻值.PageRank算法的核心公式如式(1)所示:P=(1-d)eeT/n+dUTP,
(1)式(1)中,e為單位矩陣,P代表網頁的權威向量值,d代表阻尼系數,U是根據網頁的鏈接關系得到的轉移矩陣.在本文中將以PageRank算法為基礎,衡量團伙犯罪網絡中的嫌疑人犯罪影響力.將犯罪組織網絡中的某個犯罪嫌疑人i的影響力設為Pi,那么所有犯罪嫌疑人的用戶影響力則為{Pi,Pj,…,Pn},對應的犯罪影響力可建模成為一個向量P=[Pi,Pj,…,Pn]T,故PageRank算法的核心公式可表示為:在式(2)中,對于每一個k∈[i,n],都必須滿足:在本模型中,ukk的值都設定為0.1.2點度中心度現實世界中,為了最大程度地保護自己,很多犯罪嫌疑人都是實行單向聯系,所以團伙犯罪組織網絡往往都是一個有向網絡.在一個犯罪網絡中,如果一個犯罪嫌疑人與其他犯罪嫌疑人聯系較為緊密,或者說該犯罪嫌疑人能夠同時指向多個其他組織成員,那么該犯罪嫌疑人就會處于權力的中心,在此可用點度中心度進行衡量,如下式所示:Ci=di,
(4)在式(4)中Ci表示的是犯罪嫌疑人i的點度中心度,di表示所有指向犯罪嫌疑人i的鏈接.在構造實際的犯罪組織網絡時,要以信息的逆流向為準判別犯罪嫌疑人的關系指向,比如犯罪嫌疑人B是通過犯罪嫌疑人A獲取作案信息的,那么在關系網絡中,B應是指向A的,即A應將自己的犯罪影響力貢獻于B.1.3中間中心度中間中心度衡量的是犯罪嫌疑人的橋梁作用.在有向的犯罪組織網絡中,如果某犯罪嫌疑人處于其他兩個人的最短聯系路徑上,那么該犯罪嫌疑人對其他兩人來說就比較重要.如果該犯罪嫌疑人處于其他任意兩個犯罪嫌疑人的最短路徑上的頻率越高,那么該犯罪嫌疑人的“橋梁作用”就越強,相對來說,對組織的影響力就越大.在此,以式(5)表示某犯罪嫌疑人的中間中心度.式(5)中,Bk表示犯罪嫌疑人k的中間中心度,S(i→k→j)表示犯罪嫌疑人i經過k與其他任意犯罪嫌疑人的最短路徑數目.1.4接近中心度接近中心度衡量的是犯罪嫌疑人影響力的波及程度,在有向犯罪組織網絡中,如果某犯罪嫌疑人能夠以較短的距離和其他許多人進行聯系,那么該犯罪嫌疑人也是比較重要的,接近中心度的計算如式(6)所示:式(6)中,Fk表示犯罪嫌疑人k到該網絡中所有犯罪嫌疑人的最短路徑長度之和,D(k→j)是指犯罪嫌疑人k到犯罪嫌疑人j的最短路徑長度.本模型使用狄克斯特拉算法(Dijkstra)求取最短路徑,該算法是由荷蘭計算機科學家狄克斯特拉提出[15].采用的是貪心算法的策略,在有向加權圖中,能夠求取起始點到其他任意節點的最短距離.2基于PageRank算法以及網絡結構特性的犯罪嫌疑人影響力評估模型在本文中,CIS-PNSC模型主要是對PageRank算法中轉移矩陣U的改進,因為該轉移矩陣U是決定犯罪嫌疑人影響力的根本要素.本模型主要通過衡量團伙犯罪網絡中的三大網絡特性進行犯罪影響力的分配,即根據三大網絡特性確定轉移矩陣U.另外PageRank算法容易發生主題漂移現象,所以在本模型中,加入了犯罪嫌疑人的主題相關性,以此避免此現象.2.1有向加權網絡的確定在實際的犯罪組織網絡中,不同嫌疑人之間的關系不可能是完全相同的,因此可以根據一些重要因素(比如個人背景、通信內容、聯系方式等)計算犯罪嫌疑人之間的相似度,然后根據相似度對有向的犯罪組織網絡進行邊加權,將其變為一個有向加權網絡.不同的犯罪類型有著不同的測量維度,比如地域性犯罪,籍貫是一個重要屬性;黑社會組織犯罪,從業種類是一個重要屬性;電信詐騙犯罪,聯系頻率可能是一個重要屬性等等.在本模型中,用式(7)進行衡量犯罪嫌疑人相似度的計算.式(7)中,采用余弦相似度S(i,j)評估犯罪嫌疑人之間的相似度.Ai表示的是犯罪嫌疑人i的個人信息向量(不同的案件對應著不同的測量屬性).因為在有向加權網絡中,用戶之間的距離越近表示關系越親密,所以需要對用戶的相似度進行轉化,轉化為用戶的關系強度.在實際的加權過程中,采用式(8)對用戶關系的權值進行轉化計算.S′=e-S(i,j),
(8)式(8)中,S′表示犯罪嫌疑人之間的關系強度,同時S′是有向的,比如在黑社會犯罪網絡中,犯罪嫌疑人B獲取重要信息的主要渠道是通過犯罪嫌疑人A,那么A對B的關系就越近,相似度就越高,那么S′的值就要越小,反之B對A則不然.有向加權網絡的確定也有效地避免了PageRank算法的主題漂移現象.2.2轉移矩陣的確定點度中心度、中間中心度以及接近中心度是本模型確定轉移矩陣的主要因素,設圖2為某個團伙犯罪組織網絡中的一部分,根據圖2可說明犯罪嫌疑人之間的影響力分配原則.原始的PageRank算法在考慮用戶影響力分配時,主要的參考依據是點度中心度.在本模型中,主要根據中間中心度、接近中心度兩大特性,再結合點度中心度改變ukt的原始值,挖掘出團伙犯罪組織網絡中真正的幕后大佬.在圖2中,犯罪嫌疑人D會將自己的犯罪影響力分給C、B和F,那么犯罪嫌疑人D的分配原則應是根據C、B和F在犯罪網絡中的重要性進行分配.所以在本模型中定義相對網絡中心度Tki表示犯罪嫌疑人k相對i的網絡重要程度.在此,利用加權融合的方法確定犯罪嫌疑人k對i的相對網絡中心度,Tki的計算方法如式(9)所示:Tki=αB′ki+βF′ki,
(9)其中,B′ki表示的是犯罪嫌疑人k對犯罪嫌疑人i的相對中間中心度,計算方法如式(10)所示:在式(9)中,F′ki表示的是犯罪嫌疑人k對犯罪嫌疑人i的相對接近中心度,計算方法如式(11)所示:在式(10)、(11)中M(i)是指犯罪嫌疑人i所指向的嫌疑人集合.在圖2中,假設犯罪嫌疑人D指向了犯罪嫌疑人B、C和F,即M(D)是{B,C,F}.Tki中,α和β的確定可根據層次分析法確定[16].此時,假設犯罪嫌疑人B在本團伙犯罪組織網絡中的中間中心度為6,接近中心度為15;犯罪嫌疑人C在本團伙犯罪組織網絡中的中間中心度為8,接近中心度為12;犯罪嫌疑人F在本團伙犯罪組織網絡中的中間中心度為3,接近中心度為18.那么犯罪嫌疑人B相對犯罪嫌疑人D的相對中間中心度為B′BD=6/(6+8+3),犯罪嫌疑人B相對犯罪嫌疑人D的相對接近中心度為F′BD=15/(15+12+18),則犯罪嫌疑人B相對犯罪嫌疑人D的相對網絡中心度為TBD=αB′BD+βF′BD.此時uij的計算如式(12)所示:2.3犯罪影響力的計算在圖2中,假設B相對犯罪嫌疑人D的相對網絡中心度為TBD=0.4,犯罪嫌疑人C相對犯罪嫌疑人D的相對網絡中心度為TCD=0.25,犯罪嫌疑人F相對犯罪嫌疑人D的相對網絡中心度為TFD=0.55,那么犯罪嫌疑人D則將自己的影響力的0.40/(0.40+0.25+0.55)貢獻給犯罪嫌疑人B,同理,影響力的21%貢獻給犯罪嫌疑人C,影響力的46%貢獻給犯罪嫌疑人F.此時uDB=0.33,uDC=0.21,uDF=0.46,它們的和為1.2.4CIS-PNSC模型構建的主要步驟根據以上描述,CIS-PNSC模型構建的主要步驟如下:(1)首先根據已獲得的犯罪組織信息,結合犯罪團伙特點,形成團伙犯罪組織的網絡拓撲結構;(2)根據已掌握的所有犯罪嫌疑人的作案信息,通過犯罪嫌疑人之間關系強度S′的計算方法確定該團伙犯罪組織網絡的用戶關系權值;(3)根據網絡結構特性,即點度中心度、中間中心度以及接近中心度確定轉移矩陣;(4)根據PageRank算法計算得到犯罪團伙中嫌疑人的犯罪影響力.3實驗結果及分析3.1數據來源本文的實驗數據來源于2019年某市的一起特大涉黑案件,該犯罪團伙共有253名涉案人員,其中有43名主要涉案人員,共計涉案39件.根據用戶關系權值可以得出該團伙犯罪組織網絡的拓撲結構,具體包含253個節點,30456條有向邊.在取參數時,考慮到主要涉案人員在犯罪團伙中的重要程度和影響力作用,認為參數α大于β,即該嫌疑人在犯罪網絡中的相對中間中心度的權重大于相對接近中心度的權重.根據作案信息以及層次分析法,得出本模型的主要參數,如表1所示.理論上,d的取值在0至1之間,若d的取值趨近于1,那么迭代的次數會成倍增長,效率極其低下,而人為控制的比重也將會下降.本文經過計算,d的取值為0.850時,既增加了人為的控制比重,也將迭代次數控制在140次左右,符合PageRank算法的建議.3.2實驗評價指標3.2.1Precision@N在信息檢索或者評估分類中,倘若不考慮結果的排名順序,召回率和準確率是最常用的評價指標,而在有序的排名結果中,用戶關注的往往是那些靠前的排名結果,比如在團伙犯罪中,公安機關關注更多的往往是那些幕后黑手——實際的操盤者,此時依靠召回率與準確率評價其排名結果無法滿足實際需要.這時Precision@N(P@N)就是一個很好的補充評價指標,其關注的是排名結果較為靠前的準確率.P@N的計算如式(13)所示:式(13)中,AN∩BN表示模型A(B)對犯罪嫌疑人影響力進行大小排名得到的前N名用戶的交集數量,由于本文涉及的嫌疑人較多,N的取值分別為10,20,30,40,50,60,70,80.3.2.2斯皮爾曼等級系數斯皮爾曼等級系數是衡量不同算法相關性的一個重要參數,斯皮爾曼等級系數常用作解決分析兩個變量之間相關性的問題,這是由英國統計學家斯皮爾曼根據通過積差相關的基礎知識計算得出的[17].在本文中,斯皮爾曼等級系數主要用來衡量不同模型得出的嫌疑人犯罪影響力結果的相關性.斯皮爾曼等級系數的計算方法如式(14)所示:在式(14)中,ρ代表最終得到的變量關系值,即斯皮爾曼等級系數,在本文中,當ρ>0時,表示兩個模型所得的排名結果正相關,當ρ<0時,表示兩個模型所得的排名結果負相關,當|ρ|=1時,表示兩個模型所得的排名結果完全正相關,或者完全負相關.ρ值越大,表示兩個模型所得的排名結果相關性越強.xi和yi分別代表不同模型求取得N個犯罪嫌疑人的影響力值.通過斯皮爾曼等級系數可以評估本文模型與對比模型評估結果的相關性.斯皮爾曼等級系數與P@N評價指標的主要區別在于,前者從全局的角度出發評估實驗結果,分析模型之間的相關性;而后者是從局部的角度出發分析模型的準確率.3.3結果分析本文基于Hadoop對實驗數據進行分析處理,Hadoop是由Apache基金會開發的開源、可靠穩定、可擴展、低成本的分布式系統基本架構,以文獻[18-19]中提到的模型為對比模型進行實驗的對比分析.3種模型計算所得的嫌疑人犯罪影響力的實驗結果如表2所示.根據實驗結果,3種模型的相關性如表3所示.從表3中可以看出,3個模型的相關性都呈現正相關特性,而且ρ均大于0.4,說明本模型與已有的較為成熟的模型具有一定的吻合度,所以也具有一定的可行性.其中CIS-PNSC與文獻[18]的相關性最高,這是因為CIS-PNSC模型與文獻[18]都是在PageRank的基礎上進行改進的.根據實際的辦案結果,可得到真實的嫌疑人犯罪影響力排名,本文以實際辦案得到排名為基線模型,以本文模型以及文獻[18-19]為對比模型.對比模型所得結果在P@N指標下的表現如表4所示.根據表4可知,本模型在前80名犯罪影響力的排名準確率能夠維持在70%以上,說明了本模型的準確性是達標的,對比文獻[18-19],本模型的準確率是較高的,是優于對比模型的.隨著N值的增大,準確率在下降,但仍能維持在70%以上.根據計算結果可知,當N為120時,本模型的P@N值最小,為65%,能夠達到基本要求;當N的值大于120時,P@N值開始逐漸恢復增加.特別需要說明的是,本模型預測得到的前三名犯罪嫌疑人和實際辦案結果是相吻合的,分別為16號犯罪嫌疑人(實際為該市城中村村主
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鉆石保值增值協議書
- 餐飲加盟平臺協議書
- 鎮江雙月協商協議書
- 門市轉讓手寫協議書
- 高速施工安全協議書
- 非法集資合股協議書
- 魚池防漏保修協議書
- 車位委托代售協議書
- 苗木臨時收購協議書
- 菌種大棚承包協議書
- 2024年保安員證考試題庫及答案(共240題)
- 智能化工程投標書
- 【招投標管理探究的國內外文獻綜述2600字】
- 傳感器技術-武漢大學
- 巖石破碎型泥水平衡頂管施工工法
- 新概念英語第1冊第2冊單詞帶音標
- 健康養老照護課程設計
- 西藏拉薩市10校2025屆高考沖刺押題(最后一卷)歷史試卷含解析
- HG∕T 3657-2017 水處理劑異噻唑啉酮衍生物
- NBT 31021-2012風力發電企業科技文件規檔規范
- 科學世界包含內容
評論
0/150
提交評論