




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
Spark應用開發技術本章主要講述SparkGraphX:圖計算框架。通過學習本節將能夠學習SparkGraphX:圖計算框架。通過本節學習可以:理解圖與圖計算的基本概念掌握GraphX圖的創建方法掌握GraphX的基本操作掌握以GraphX進行關聯聚合操作認識SparkGraphX圖的基本概念、圖計算的應用、GraphX的基礎概念、GraphX的發展了解GraphX常用API圖的創建與存儲、數據查詢與數據轉換、結構轉換與關聯聚合構建信任網絡并找出目標用戶構建網站信任網絡、找出需要支付稿酬的用戶、找出進入熱門榜的用戶1.背景W網站是一個面向廣大用戶的消費品信息聚合網站,主要向用戶提供各類日常消費品的點評信息,以幫助用戶選到滿意的商品。當用戶登錄網站后,可以發表對某件商品的點評,也可以參考其他點評者的點評信息。如果覺得某個點評信息的質量優秀,則可以將這個點評者納入自己的信任列表。這樣一來,在用戶與用戶之間就產生了一個基于信任關系的網絡。如果某用戶被其他用戶納入到信任列表的次數越多,則表明其信任值就越高。W網站為了鼓勵用戶做出優質的商品點評,會向信任值很高的用戶支付一定的稿酬以鼓勵點評,對于極受歡迎且達到一定活躍度的用戶,可以進入熱門點評榜,增加知名度構建信任網絡并找出目標用戶1.
背景目前網站已經積累了大量的用戶數據,其中包括用戶的個人信息,基本格式如表所示,Id表示用戶構建信任網絡并找出目標用戶1.背景用戶間的信任關系數據如表所示,FromNodeId為收藏信任點評人的用戶Id,ToNodeId為被加入信任列表的用戶Id,每一行數據表示左邊的用戶將右邊的用戶納入了信任列表構建信任網絡并找出目標用戶2.分析目標主要是根據網站的需求,結合采集到的數據,利用SparkGraphX圖計算工具完成以下任務構建網站信任網絡找出網站需要支付稿酬的用戶找出有資格進熱門點評榜的用戶構建信任網絡并找出目標用戶3.構建網絡信任圖構建網絡信任圖的步驟如下所示先將數據上傳到HDFS文件系統導入圖計算所需要的包通過graph.fromEdges的方法創建信任網絡圖,頂點與邊的屬性設為常用的替代屬性1L構建信任網絡并找出目標用戶4.找出需要支付稿酬的用戶為了鼓勵用戶點評,所以對于信任度比較高的前50名用戶會支付一定的稿酬。想要找出信任度比較高的用戶,首先需要計算每個用戶的被信任度,也就是計算每個頂點的入度數。計算完入度數之后,需要根據入度數進行排序,排序按照從高到低的順序,然后從排序后的頂點數據中取出前50名作為獎勵用戶,這50名用戶就是網站需要支付稿酬的用戶了構建信任網絡并找出目標用戶5.找出進入熱門榜的用戶熱門排行榜是用于對網站用戶進行一個排名的,想上排行榜需要滿足一定的要求才有資格進入。第一點就是用戶的信任度必須在網站用戶信任度排名中排在前3%;第二點就是用戶的活躍度在滿足第一點的用戶中排在前5%,其中信任度表示入度數,活躍度表示出度數。根據以上要求,要找出滿足條件的用戶,第一點需要計算入度數并排列取出前3%的用戶,然后再計算這3%的用戶的出度數,取出前5%的用戶,這部分用戶即為可上榜用戶構建信任網絡并找出目標用戶5.找出進入熱門榜的用戶構建信任網絡并找出目標用戶5.找出進入熱門榜的用戶構建信任網絡并找出目標用戶5.找出進入熱門榜的用戶進入熱門榜的用戶如圖所示構建信任網絡并找出目標用戶6.給用戶推薦可信任用戶一個用戶對另一個用戶表示信任,那么他/她可能對于另一個用戶所信任的其他用戶的點評同樣也比較信任。將信任人的信任人推薦給這個用戶,屬于二度關系推薦,這是常用的一種最簡單的推薦方法。這個過程可以稱為二度關系或二跳鄰居,二度關系推薦可抽象成在有向圖中尋找到指定頂點的最短距離為2的所有頂點。具體求解過程如下先構造一個屬性圖,為了存儲符合關系的鍵值對(用戶Id->度數),每個頂點的屬性Attr初始化為Map(),然后進行兩次迭代求解二度關系構建信任網絡并找出目標用戶6.給用戶推薦可信任用戶二度關系求解過程使用aggregateMessages把VerticeID和第幾度鄰居的度數N作為一個鍵值對傳播到出度點上,出度點把收集到的信息合成一個大Map構建信任網絡并找出目標用戶6.給用戶推薦可信任用戶二度關系求解過程更新后的Vertice與原圖進行“Join”,更新圖中的變化過的點屬性,將Map數據加入到圖中進行下一輪的分析構建信任網絡并找出目標用戶6.給用戶推薦可信任用戶構建信任網絡并找出目標用戶給用戶推薦可信任用戶重復1,2步,此時N值改為2,輸出更新了2輪之后的有關系的Vertice,去掉其中已經被頂點所信任過的用戶6.給用戶推薦可信任用戶二度關系求解過程數據類型為(頂點Id,2度鄰居頂點Id),現在將同一個用戶的所有推薦用戶Id合并成一個List,選取其中的10個作為推薦結果并且輸出到HDFS構建信任網絡并找出目標用戶6.給用戶推薦可
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 景區寵物喂養管理制度
- 發揮游戲在幼兒數學教學中的作用
- 瓦斯的日常管理與監測 光學瓦斯檢定器使用
- 計算機應用基礎實例教程(第二版)課件第5章
- DB43-T 2733.1-2023 公共資源交易專家抽取服務規范 第1部分:綜合評標專家
- 2024北京三十五中高一9月月考數學試題及答案
- 《鮑照蕪城賦》測試題帶答案
- 《Python程序設計》課件7-文件
- 2025年農業生物技術在種業中的生物技術產品市場潛力與產業布局報告
- 2025年農業生物技術在農業種子產業節能減排種業創新中的應用與突破研究
- 外研版高一英語必修一重點總結
- 腰椎間盤突出癥的診斷、鑒別診斷與分型
- 02 微電子制造裝備概述
- 價值流圖析VSM(美的資料)
- 手足口病培訓課件(ppt)
- LD型單梁起重機使用說明書
- 測試案例附錄DTX1800使用
- 實習生推薦信
- 關于德國能源轉型的十二個見解
- 內蒙古自治區公路工程施工企業信用評價管理實施細則
- 在全市文物保護員培訓班上的講話
評論
0/150
提交評論