社會網絡關系數據智能采集系統的設計與實現――基于Web數據挖掘原理_圖文_第1頁
社會網絡關系數據智能采集系統的設計與實現――基于Web數據挖掘原理_圖文_第2頁
社會網絡關系數據智能采集系統的設計與實現――基于Web數據挖掘原理_圖文_第3頁
社會網絡關系數據智能采集系統的設計與實現――基于Web數據挖掘原理_圖文_第4頁
社會網絡關系數據智能采集系統的設計與實現――基于Web數據挖掘原理_圖文_第5頁
已閱讀5頁,還剩10頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、持搬努撟與珊巍社會網絡關系數據智能采集系統的設計與實現基于數據挖掘原理張小飛蔡亞萍劉威(南京師范大學數據挖掘實驗室南京)【摘要】基于數據挖掘原理,設計并實現一個針對虛擬社區社會網絡分析的關系數據智能采集系統,從系統設計與關鍵模塊實現兩個方面進行詳細介紹。最后,以“蘇州計算機教育論壇”為實驗對象,證實本系統能夠極大提高數據采集的效率,得到的數據能夠滿足社會網絡分析軟件的要求。【關鍵詞】社會網絡分析關系數據智能采集數據挖掘【分類號】(,)【】(),【】研究背景與目的社會網絡分析方法的發展社會網絡分析(,)方法是通過對行動者之間的關系與聯系的聯結情況進行研究與分析,歸納出行動者的社會網絡信息,進一步

2、觀察并了解行動者的社會網絡特征。隨著網絡技術的發展,人們越來越多地通過網絡進行溝通、交流以及形成人際關系。在這樣的時代背景下,從人類學、心理學、社會學、傳播學、數學以及統計學領域中發展起來的社會網絡分析開始用于網絡時代虛擬社區中人際交流的研究。虛擬社區的研究現狀在虛擬社區繁榮的早期,以等人為代表的學者就開始對虛擬社區進行社會學研究。近年來,收稿日期:一收修改稿日期:圜現代圖書情報技術總第期年第期國內外學者開始重視利用方法來研究虛擬社區,其中比較典型的研究案例包括:、胡勇”。、劉榮光。、王陸對中的群體互動特點及個體角色等問題的研究;“、黎加厚、葉新東舊等對博客中的對話特征、教育博客共同體的關系、

3、博客群的社群特點等問題的研究。另外,基于方法提出了一種在線協作學習環境交互分析的新方法。通過文獻研究,可以看出這類型的研究大致都遵循以下技術路線:確定網絡邊界;采集關系數據;建立關系矩陣;使用軟件進行數據分析。虛擬社區研究中關系數據采集的問題及解決方案目前,國內在方面的研究基本都集中在關系數據的分析層面,數據的采集主要通過人工統計。、調查問卷哺或直接訪問數據庫。得到。但是由于權限的限制,研究者大都無法獲得數據庫的直接訪問,同時由于上海量數據的存在,人工統計或調查問卷也將是一項枯燥而耗時耗力的工作。因此國外的部分學者提出了一些基于的關系數據自動采集方法,如基于網絡日志的方法”“,基于文本內容分析

4、的方法¨等。前者因為網絡日志文件的可利用性因素,并不適合各類虛擬社區的關系數據采集,后者借助了一些自然語言處理的方法,如命名實體識別,在一定程度上增加了系統的復雜性。考慮到虛擬社區頁面結構化的特點,以論壇為例,其一般由版塊頁面、主帖頁面、回復頁面種類型的頁面構成層級的網站結構,且這些頁面通常是服務器基于特定模板自動生成。因此筆者采用模式匹配的思想,設計并實現了一種針對這種半結構化文檔的關系數據智能采集系統。相對于日志分析的方法,其具有更廣的適用性。相對于文本內容分析,其在一定程度上降低了系統的復雜性,提高了系統的采集效率,因此更適合于海量數據的環境。需求分析及系統設計系統需求社會網絡

5、分析的目的在于發現網絡中行動主體之間的結構及其交互關系。筆者選取了一個典型的計算機教育虛擬社區“蘇州計算機教育論壇”中的“園區教研”版塊為研究對象。在該社區網絡中,行動主體 表現為論壇中活動的注冊用戶,主體之間的結構及其關系則由用戶發帖來體現。基于此目的,本系統主要采集如下信息:()誰和誰產生了交互(關系的存在性);()交互的次數(關系的強度)。為了便于量化統計,本文作如下規定:()當用戶回復他人發表的主帖時,即認為該用戶與主帖人產生了交互,方向為用戶指向主帖人;()用戶在回復他人主帖的同時引用了其他人的話語,則認為該用戶同時與主帖人和被引用人產生了交互,方向為用戶指向主帖人和被引用人。系統框

6、架及其功能本系統的主要功能是定點從用戶指定的站點、博客群等虛擬社區網站中提取用戶的交互數據,為基于網絡的研究提供準確、便捷的數據來源。結合數據挖掘中搜索引擎的設計思想,筆者設計并實現了如下系統原型,主要包括頁面下載、數據提取、數據存儲、數據轉換等幾個關鍵模塊,如圖所示:一一一一一一一一一一一一一一一一一一一一一圖系統框架圖頁面下載模塊根據用戶定義的規則有選擇地下載目標區域中特定類型的頁面,以供本系統內部數據提取模塊作進一步處理。數據提取模塊根據用戶配置的模式,從網頁文本中提取用戶關注的結構化信息,如用戶信息、主帖信息、用戶交互信息等,為后續數據轉換模塊的處理提供結構化的數據源。同時,該模塊還將

7、不斷發現目標區域新的下載任務,從而使下載模塊遍歷完指定區域的所有網頁。數據存儲模塊是系統業務邏輯和(數據庫管理系統)之間的一個橋梁,它封裝數據庫底層操作的邏輯細節,為其他業務邏輯提困攘撼凳耩鴦耕巍供簡潔一致的數據訪問接口。數據轉換模塊對中的結構化數據作進一步的轉換處理,以生成軟件所支持的數據格式。本系統的主要任務在于統計中存儲的用戶交互記錄,然后生成矩陣表示的數據文件。關鍵模塊實現本系統以作為開發語言,作為集成開發環境,數據庫采用,同時為了提高數據的訪問效率,采用開源數據庫連接池管理底層數據庫連接。以下對本系統各關鍵模塊作詳細說明。頁面下載模塊頁面下載模塊是一個多線程的下載程序,為了防止同一任

8、務的重復處理而影響最終數據的準確性,整個模塊由統一的任務管理器負責調度。各下載線程向任務管理器發出任務請求,接到請求之后,任務管理器從任務池中獲取一定數量處于“等待處理”狀態的任務,修改其狀態為“正在處理”,然后交給相應下載線程進行下載。同樣處理完成的任務也將被提交至任務管理器,其修改任務池中相應任務為“已處理”狀態,處理邏輯如圖所示:圖下載模塊處理邏輯數據提取模塊數據提取模塊封裝了與具體業務無關的提取邏圈現代圖書情報技術 輯,采用基于正則表達式的漸進式模式匹配策略實現數據的提取。為了保證數據提取的準確性,目標數據模式由人工分析目標類型的頁面得到。該模塊設計了“匹配結果緩存”、“待處理匹配模式

9、隊列”兩種數據結構來輔助提取邏輯的實現,其中前者存儲針對特定頁面類型的數據提取模式,后者存儲已處理的匹配模式及其匹配結果,如表和表所示:表匹配結果緩存原始頁面內容匹配結果緩存(注:“”存儲已處理的匹配模式,“”存儲該模式的匹配結果)表待處理匹配模式隊列(注:“”存儲匹配模式標識,“”存儲待處理的匹配模式,“”存儲該模式將要匹配的數據源標識,具體對應“匹配結果緩存”某緩存項的)信息提取模塊按順序依次處理“待處理匹配模式隊列”中存儲的模式隊列,然后把匹配結果存入“匹配結果緩存”,這些緩存結果作為后續匹配任務的數據源作進一步提取,所以整個過程是一種漸進式的、逐級細化的數據提取過程,其處理邏輯如圖所示

10、:圖數據提取模塊處理邏輯網數據流:竺總第期年第期其中數據流表示把原始頁面以作為標識存人“匹配結果緩存”,表示依據當前模式值提取“匹配結果緩存”中對應的緩存項作為匹配數據源,表示以當前模式值為,把匹配結果存入“匹配結果緩存”。以園區教研版塊的回復頁面為例,為提取發帖用戶名和用戶,構造了如表所示的匹配模式隊列,整個提取過程如表所示。對于一個頁面,只需順序處理該隊列一次,便可抽取到頁面的所有用戶信息。為了保證同一頁面多個用戶名和用戶的對應關系,匹配結果緩存中的各緩存項依據匹配區域進行分組。表用戶回復頁面的匹配模式隊列工鼉野啤“、”、抵“”。?矗表用戶回復頁面用戶名和用戶的數據提取過程步驟描述匹配績果

11、寰翟寞二囊嶝纛翼馨簍量翼存中標頁面的整個發帖區識的緩存內容,即原始頁面內容“廈用”稷虱十“俁瓦朋匹笫呆友帖雎各個早弛用尸陌應用“”模式于“”模式的匹配結果蓋鍪用戶帖的用戶描述應用“”模式于”模式的匹配結果星嵩罌述區的忙標槲模式于模式的匹配結果然標霎囂容中的應用”模好模式的匹配結果磊篇;鏨簽內容中包含應肘”模式于”模式的匹配結果磊名;警內容中包含數據轉換模塊用戶交互信息最終被結構化地存儲在數據庫之中,數據轉換模塊負責讀取其中的數據,然后輸出為軟件所支持的數據格式。本模塊首先在發帖記錄表、主帖信息表、用戶信息表的基礎上構建“回帖記錄視圖”,然后構建用于統計的哈希表結構,如圖所示。數據轉換模塊依次遍

12、歷“回帖記錄視圖”的各條記錄,然后統計由交互施事,交互受事標識的交互交互統計哈希表交互事件交互次數交互施事交互受事次數圖回帖記錄視圖和交互統計哈希表事件次數,存入交互統計哈希表。最后在交互統計哈希表的基礎上生成以矩陣形式表示的用戶交互矩陣,并輸出為眾多軟件均支持的數據文件,其處理邏輯如表所示:遍歷回望己錄視圖累蓑薔。統計交互記錄一交互統計哈希表:交互矩陣卜生成交互矩陣:數據叫輸出交互矩陣數據一文件。同控制流數據流、,圖數據轉換模塊處理邏輯案例結果分析筆者利用該關系數據采集系統對“蘇州計算機教育論壇”的“園區教研”版塊進行實驗,得到個活動用戶的×維加權關系矩陣,將其命名為“”。由于節點

13、數過大,筆者選取其中入度中心度最高的個成員節點,列出其×的關系矩陣,如表所示。矩陣中橫向用戶表示交互動作的發起者,數字代表交互的次數,例如:冬至對肖年志的主動交互次數為次,而肖年志對冬至的主動交互次數為次。本系統暫不關注用戶與自身的交互,故將對角線上的數據置。目前,虛擬社區研究中的數據分析主要依靠各種計算機輔助手段實施,常用的軟件包括囫蟹熙一耩攥勢撩鴦研究表人度前位的成員關系矩陣肖年志冬至黃毅晟蘇州布衣顧小虎蔣繪寰肖年志冬至黃毅晟蘇州布衣顧小虎蔣繪寰、和等,根據和年的統計¨,大部分軟件都支持矩陣的數據格式,將數據導入軟件之后即可進行相關的分析和統計。筆者將導入中,對網絡整體

14、特征進行分析,得到該網絡密度為,中心度()為,聚類 系數()為。將其導人,繪制出如圖所示的網絡關系圖,分析得到有位成員的入度為,占總數的,而入度前位的成員平均入度高達,由此可見該網絡聯系集中于少數核心成員,是一個具有較高中心性的網絡。圖整體網絡圖本系統共采集到“園區教研”版塊條主帖,條跟帖,總耗時約分秒。如果采用人工方法進行統計,以記錄一條跟帖信息需秒計算,總共所囚現代圖書情報技術 需時間約為小時。由此可見,本系統極大提高了數據采集的效率,且得到的數據能夠滿足社會網絡分析軟件的要求。博磁鋁舛¨嘲。甜鴝嘛一協一:總第期年第期 劉榮光,劉曉琴網絡課程中討論區交互特征的社會 結語 筆者在設

15、計過程中最大限度地考慮了系統功能模 網絡分析以網絡遠程教育課程為例上海師范大 學學報:自然科學版,(): 王陸虛擬學習社區的社會網絡分析中國屯化教育, (): , 塊的通用性,如下載模塊、數據存儲模塊基本上與具體 的業務邏輯相互獨立。數據提取模塊中與業務無關的 提取邏輯也被封裝成通用模塊,以供不同的數據提取 系統使用。但是該系統原型還是存在一些不足,例如 匹配模式隊列的構建需要用戶根據具體的數據需求手 工構建,這同時需要用戶懂得正則表達式的知識。另 外數據轉換模塊的業務邏輯也與數據庫關系模式存在 耦合。這主要因為社會網絡分析本身具有極強的個案 性,即使是面對同類型的虛擬社區,不同研究對數據的

16、要求也不盡相同,這限制了其在實現上的通用性,將在 今后的研究中對系統的不足之處作進一步完善。 , , : ” ”: 啦 ,: ,: 葉新東,邱峰,沈敏勇教育技術博客的社會網絡分析現 代教育技術,(): : ,:, 邱均平,于長福,馬瑞敏圖林博客的社會網絡分析圖書 情報工作,(): , , 參鴦變裁:。 劉軍社會網絡分析導論北京:社會科學文獻出版社, : 咖 , , : : , 黎加厚,趙怡,王玨網絡時代教育傳播學研究的新方法:社會 網絡分析以蘇州教育博客學習發展共同體為例電化 教育研究,():一 : : : ,:, , 一: , , : 胡勇,王陸異步網絡協作學習中知識建構的內容分析和社會 ,

17、: 網絡分析電化教育研究,(): (作者:) 囫 萬方數據 社會網絡關系數據智能采集系統的設計與實現基于Web數 據挖掘原理 作者: 作者單位: 刊名: 英文刊名: 年,卷(期: 引用次數: 張小飛, 蔡亞萍, 劉威 南京師范大學Web數據挖掘實驗室,南京,210097 現代圖書情報技術 NEW TECHNOLOGY OF LIBRARY AND INFORMATION SERVICE 2009,(9 0次 參考文獻(13條 1.劉軍.社會網絡分析導論M.北京:社會科學文獻出版社,2004. 2.黎加厚,趙怡,王玨.網絡時代教育傳播學研究的新方法:社會網絡分析-以蘇州教育博客學習發展共同體為例

18、 J.電化教育研究,2007(8:13-17. 3.Tateo L.The Italian Extreme Right On-line Network:An Exploratory Study Using an Integrated Social Network Analysis and Content Analysis ApproachJ/OL.Journal of Computer-Mediated Communication.2009-06-03./vol10/issue2/tateo.html. 4.胡勇,王陸.異步網絡協作學習中知識建構的內

19、容分析和社會網絡分析J.電化教育研究,2006(11:30-35. 5.劉榮光,劉曉琴.Moodle網絡課程中討論區交互特征的社會網絡分析-以網絡遠程教育課程為例J.上海師范 大學學報:自然科學版,2008,37(4:433-437. 6.王陸.虛擬學習社區的社會網絡分析J.中國電化教育,2009(2:5-11. 7.Herring S C,Kouper I,Paolillo J C,et al.Conversations in the Blogosphere:An Analysis"From the Bottom Up"C.In:Proceedings of the 38

20、th Hawai'i International Conference on System Sciences.Los Alamitos,CA,USA:IEEE Press,2005:40-45. 8.葉新東,邱峰,沈敏勇.教育技術博客的社會網絡分析J.現代教育技術,2008,18(5:48-53. 9.Repetto M.A Methodological Proposal to Analyse Interactions in Online Collaborative Learning EnvironmentsC.In:Proceedings of the 2nd PROLEARN Doctoral Consortium in Technology Enhanced Learning,Crete,Greece.Aachen:RWTH,2007. 10.邱均平,于長福,馬瑞敏.圖林博客的社會網絡分析J.圖書情報工作,2008,52(11:6-9. 11.Nurmela K,Lehtinen E,Pa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論