




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
基于AI的網絡水軍識別系統方案設計
Summary:隨著社交媒體的發展,一部分人或則組織機構為了某種目的,在網上發表不實言論進行非正當的競爭行為,擾亂了市場秩序,網絡水軍通過網上散發假的輿論謠言,突破言論自由的權利,侵犯了他人的權利,為了有效且較為準確地識別出網絡水軍,基于對原始數據的預處理(包括數據清洗以及提取相關特征等),AI識別,數據庫存儲原始數據,模型識別結果等研發一套基于AI的網絡水軍識別系統,營造更為和諧的網絡環境。關鍵字:AI;網絡水軍;數據處理
1
引
言目前,國內外水軍通過在平臺上發出社交言論,對數據進行一定程度的扭曲,混淆視聽,導致平臺以及普通用戶對言論的分析發生偏差,長期的此類水軍言論發出,普通用戶會進行懷疑,使其對平臺的信任度下降,不利于各社交平臺的發展[1],基于社交媒體出現的水軍的影響也越來越大[2]。如今我國還處于水軍識別研究初期階段,還面臨著許多挑戰問題[3]。本文將借助現有的水軍識別基礎,對爬取數據預處理,AI模塊識別,數據庫存儲,呈現結果等,以此來解決水軍識別的問題。2水軍的識別方法2.1識別具體方法(1)基于用戶發布內容分析。通過對用戶發布的博文或者言論,單純地在文本內容上進行文字的相似度比較、語句通順度查驗或者文字所體驗出的情感特征、傾向進行分析,大于預先設定的某個閾值的則被判定為水軍博文。(2)基于用戶的屬性和行為特征分析。其屬性主要包括:關注度和粉絲比值,非空轉發比。微博原創比,url使用率,用戶提及率,關注速率等。其行為主要包括:高頻重復、時間集中,注冊時間早等。(3)基于水軍用戶之間關系的分析。通過發現水軍團體中的關系,將一個水軍作為中心原點,通過計算原點水軍向外伸展關系連接,找出原點水軍的同類水軍團體,達到識別水軍團隊的方法。(4)基于用戶綜合特征進行分析。對提取到的原始數據,將句子中的噪聲去除并獲得情感分析分數,然后分詞分句,獲得原子語句,再利用相似度算法等分組,根據制定的規則篩選出用戶,從數據庫提取出特征,并通過機器學習模型識別[4]。2.2
識別難點(1)水軍判別很大程度上依賴于自然語言處理技術,需要對原始文本的預處理和文本內容理解,導致構建處理技術難度提高。(2)數據難以獲取,有些獲取到的數據,需要人工進行標注水軍,構建機器學習模型所需要的訓練集工作量大。(3)由于水軍慢慢形成完整的生態鏈,水軍隱藏技術越來越成熟,導致識別難度加大。(4)由于水軍的行為類型多樣化,難以采用用一種方法檢測所有的水軍類型。3
基于AI網絡水軍識別的創新設計面臨現有水軍識別存在的困難,我們基于AI技術對數據進行處理識別,最后得到是否為水軍的識別結果。該項目設計的創新點以及流程如下:(1)并非以單一方面,而是以多方面結合來進行水軍識別,并針對不同的水軍類型進行分類,從而實現水軍識別效率以及準確率的提高。(2)利用相似度計算、機器學習等方法,分析預處理后的數據,針對不同的水軍類型進行分類,通過分類方法找出隱藏在普通用戶中的水軍。(3)通過建立社群模型,找出與一般用戶關系差異較大的關系,識別出可能的水軍或水軍團體,再通過多方協調的分析進一步識別[5]。(4)通過AI分析獲取到的水軍數據,并運用數據庫模塊存儲處理結果以及AI模型識別結果,最終通過機器學習來提高數據分析效率。4
系統組成及功能模塊4.1
系統組成方案設計的系統組成有:數據的獲取、處理中心(數據的預處理、相似度算法分組、利用規則篩選初用戶、從數據庫提取特征)、機器學習模型識別、識別結果存儲和Web端展示。4.2
功能模塊系統組成中的各個功能模塊設計如下:(1)數據的獲取:主要以網絡爬蟲方式和商業API方式獲取主流社交平臺的文本數據。(2)數據的預處理:水軍會潛藏在海量信息中,盡量將自身與普通用戶同化。①相似度比較:系統會基于用戶發布的內容分析,在文本內容上進行文字的相似度比較,語句通順度查驗。基于水軍用戶之間關系的分析,以一個水軍為原點,計算原點水軍向外伸展關系連接,找出同類水軍。②機器學習和情感分析:文字所體現出的情感特征,傾向進行分析以及監督和無監督學習。③數據清洗:對大量數據進行清洗,去除停用詞,去除字少的文本,將字體進行統一的繁簡轉換,使用ASCII碼掃描去除特殊干擾符號,使用正則表達式,去除正文中的網址,正文字段中包含@的人名,將其去除,使用正則表達式,去除正文中的HTML標簽。將大量數據提取出特征,將數據處理為計算機能夠識別的數據。(3)AI模塊進行識別:在進行大量的數據清洗后,系統進行數據特征比對。(4)數據庫存儲:將原始數據和模型比對結果進行存儲,將系統提取特征與關系網進行存儲保存。(5)結果展示:將AI識別結果通過HTML、JS等開發語言完成Web功能,從而展示所識別的結果。5
技術路線從以下幾個方面來實現:
(1)采用Python技術實現水軍AI的模型建立、模型訓練、以及數據集的處理,數據集的處理涉及文本相似度的常見算法(余弦相似度、歐氏距離、simhash等),詞向量涉及技術word2vec,one-hot,glove等再對數據進行清洗用到正則表達式等,將數據轉換成計算機可快速識別的數據。(2)通過模型接口獲取某站點的用戶及發布的信息,這里將會用到網絡爬蟲、API接口的技術,然后進行實時AI識別,然后將識別的結果存儲到系統MySQL數據庫。(3)最后通過Web的方式展現識別結果,能夠通過Python或則JS、HTML等語言完成Web功能,展現識別結果和配置識別系統的功能。6
結語本文通過對目前國內外水軍研究不夠深入的問題,設計出了一套基于AI的水軍識別系統,實現對水軍的檢測以及設別,利用此項識別技術,減少普通用戶對部分言論理解的偏差,減少一些網絡弄虛作假的行為發生,提升言論的可信度以及提升平臺的可信任度,營造良好和諧的網絡環境。誠然,本系統也存在許多不足之處,將在后續的學習中進一步優化完善。Reference:[1]冉玉婷.微博水軍安全威脅和自動識別研究[J].數據挖掘,2020(12):193-195.[2]黃紅桃.微博網絡水軍數據獲取研究[J].信息處理,2020(09):169-171.[3]程傳鵬.基于特定話題的網絡水軍識別研究[J].機器學習,2018(08):64-69.[4]王雷,陳大文.面向電商平臺的水軍識別研究[J].計算機科學與技術,2021
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新能源汽車維護與故障診斷(微課版)課件 項目4 任務4.1.1VCU與其他高壓控制系統無法通信故障診斷與排除-任務4.5.2制動開關信號丟失引發高壓不上電故障診斷與排除
- 勞務合同畜牧合同樣本
- 2025屆山東省濟寧市鄒城一中高考英語押題試卷含答案
- 2025屆新疆兵團農二師華山中學高考英語考前最后一卷預測卷含解析
- 2025年游戲化教學在音樂節奏教學中的實踐探索報告
- 新能源微電網在智能交通系統中的穩定性控制與能源管理報告
- 互聯網金融平臺合規發展中的市場風險與監管挑戰研究報告
- 2025年中國置物架行業市場規模及未來投資方向研究報告
- 工業互聯網平臺霧計算協同在能源領域的應用案例分析報告
- 聚焦2025年養老護理創新:老年健康管理長期照護服務模式研究與實踐成果展示
- T-CAQI 387-2024 測量不確定度在分析化學領域質量控制中的應用指南
- 基于語篇分析的七選五題型解題策略課件-高三英語二輪復習
- 國家衛健委中醫師承關系合同(2025年版)
- 中國贛州低空經濟產業園
- 2025年春季形勢與政策-從教育大國邁向教育強國
- 中國急性缺血性卒中診治指南(2023)解讀
- 基于AIGC的設計學專業環境設計類課程中教學模式轉型與探索
- 有機肥料腐熟度識別技術規范 -DB37-T 4110-2020 山東
- 2025年光大環保(中國)有限公司招聘筆試參考題庫含答案解析
- 《S市某大學宿舍樓工程招標控制價文件編制》13000字(論文)
- 啤酒廠精釀生產線安全操作規程
評論
0/150
提交評論