基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)教材_第1頁
基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)教材_第2頁
基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)教材_第3頁
基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)教材_第4頁
基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)教材_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)

答辯人:孔楠導(dǎo)師:張建明(教授)2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)內(nèi)容概要總結(jié)與下一步工作

系統(tǒng)的實現(xiàn)

關(guān)鍵技術(shù)闡述

基于Hadoop平臺的MDVSP模型

研究的背景、現(xiàn)狀和目標(biāo)2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)研究的背景、現(xiàn)狀和目標(biāo)背景互聯(lián)網(wǎng)的信息量呈爆炸趨勢增長,數(shù)量的增加帶來的是搜索服務(wù)品質(zhì)的下降,并且查詢的結(jié)果里存在大量的重復(fù)信息和垃圾信息,用戶的查詢效率非常低?;ヂ?lián)網(wǎng)已經(jīng)成為基礎(chǔ)教育領(lǐng)域的廣大教育工作者、學(xué)生和家長們獲取基礎(chǔ)教育資源和信息的重要工具,那么在網(wǎng)絡(luò)的發(fā)展客觀上就需要有能夠滿足這一特定領(lǐng)域、特定人群或者說是特定需求的網(wǎng)站。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)研究的背景、現(xiàn)狀和目標(biāo)現(xiàn)狀信息過量。網(wǎng)上資源內(nèi)容廣泛,通用搜索引擎返回的大量信息過多過雜,專業(yè)性不強.使用戶淹沒在海量信息里,篩選信息需要耗費大量的精力。信息準(zhǔn)確度低。由于通用搜索引擎強調(diào)通用性,檢索范圍廣,對資源沒有篩選分類,資源索引庫十分龐雜,很難滿足特定用戶群的特定需求。信息服務(wù)缺乏針對性,缺少用戶交互。通用搜索引擎檢索結(jié)果完全依賴于用戶的關(guān)鍵詞,即對于不同的用戶,同一個關(guān)鍵詞返回的結(jié)果相同,沒有與用戶聯(lián)系起來,難以滿足用戶的個性化需求。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)研究的背景、現(xiàn)狀和目標(biāo)目標(biāo)提高教育領(lǐng)域搜索內(nèi)容的準(zhǔn)確率和搜索引擎的計算效率。熟悉Hadoop分布式集群的整體框架,包括其存儲模式和計算模型?;贖adoop,定制Map/Reduce和強大的容錯機制,定義和實現(xiàn)數(shù)據(jù)接口。耦合原始數(shù)據(jù)預(yù)處理和Hadoop,解決名稱節(jié)點的單點故障等問題?;贖adoop分布式平臺,結(jié)合教育資源垂直搜索領(lǐng)域,設(shè)計出搜索效率、準(zhǔn)確率較高的垂直搜索引擎。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)內(nèi)容概要總結(jié)與下一步工作

系統(tǒng)的實現(xiàn)

關(guān)鍵技術(shù)闡述基于Hadoop平臺的MDVSP模型

研究的背景、現(xiàn)狀和目標(biāo)2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型HDFS體系架構(gòu)

2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型HDFS體系架構(gòu)

Hadoop的分布式文件系統(tǒng)被設(shè)計為將海量文件遍布存儲在一個大集群的多臺計算機上。HDFS的設(shè)計是受到了GFS的啟發(fā)。HDFS將每一個文件以分塊序列的形式進(jìn)行存儲,一個文件的所有分塊除去最后一個分塊外都是等大小的。為了實現(xiàn)容錯將文件分塊進(jìn)行自動復(fù)制。文件分塊的塊大小和復(fù)制比例都是可以按照單個文件進(jìn)行配置的。HDFS中的所有文件都是“只寫一次”并且嚴(yán)格限定在任何時候只有一個寫文件操作者。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型HDFS體系架構(gòu)

和HadoopMap/Reduce類似,HDFS也是主/從架構(gòu)。一個安裝好的HDFS包括一個單獨的名稱節(jié)點,一個主服務(wù)器用于文件系統(tǒng)命名空間管理和客戶端的文件訪問管理。除此之外,還有很多個數(shù)據(jù)節(jié)點,在集群中的每個節(jié)點都有一個數(shù)據(jù)節(jié)點用于存儲該節(jié)點運行時的數(shù)據(jù)。名稱節(jié)點通過RPC接口支持文件系統(tǒng)命名空間中文件和目錄的打開、關(guān)閉和重命名等操作。它也決定了數(shù)據(jù)塊和數(shù)據(jù)節(jié)點的映射關(guān)系。數(shù)據(jù)節(jié)點負(fù)責(zé)提供文件系統(tǒng)客戶端的讀寫請求,除此之外也提供來自名稱節(jié)點的數(shù)據(jù)塊創(chuàng)建、刪除和復(fù)制指令。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型Map/Reduce執(zhí)行流程

2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型Map/Reduce執(zhí)行流程

分割文件(fork)。首先,將眾多文件分成大小不等的若干小塊數(shù)據(jù),數(shù)據(jù)塊大小由用戶給定參數(shù)控制,然后啟動機器集群中的眾多程序拷貝。指派Map/Reduce任務(wù)主程序指派空閑的工作站程序執(zhí)行Map任務(wù)或是Reduce任務(wù)。讀取(read)被指派執(zhí)行Map任務(wù)的工作站讀取相關(guān)的數(shù)據(jù)塊,從原始數(shù)據(jù)中解析出Key/Value對,經(jīng)過Map函數(shù)處理,得到中間鍵值時,存入內(nèi)存緩沖區(qū)。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型Map/Reduce執(zhí)行流程

本地寫(1ocalwrite)內(nèi)存中的數(shù)據(jù)組被劃分函數(shù)周期性的劃分到R個區(qū)域?qū)懭氡镜卮疟P。這些在本地磁盤的數(shù)據(jù)數(shù)列的存放位置信息被送回管理機,管理機負(fù)責(zé)將這些位置信息傳送到執(zhí)行Reduce任務(wù)的工作站。遠(yuǎn)程讀取(remoteread)當(dāng)執(zhí)行Reduce任務(wù)的工作站被告知這些數(shù)據(jù)的位置,它通過遠(yuǎn)程方式讀取執(zhí)行Map任務(wù)的工作站中的本地緩沖數(shù)據(jù)。Reduce工作站讀取完所有中間數(shù)據(jù)后,通過中間關(guān)鍵字對數(shù)據(jù)進(jìn)行排列,把具有相同關(guān)鍵字的數(shù)據(jù)分為一類。排序操作是必須的,因為具有不同的關(guān)鍵字Map后會進(jìn)行相同的Reduce操作。如果中間數(shù)據(jù)的數(shù)量太大不適合存入內(nèi)存,就啟用外部存儲。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型Map/Reduce執(zhí)行流程

寫到輸出文件(write)Reduce工作站對每一個由唯一的中間關(guān)鍵字對應(yīng)的中間數(shù)據(jù)進(jìn)行排列,它發(fā)送關(guān)鍵字和相對應(yīng)的中間值給用戶的Reduce函數(shù)。Reduce函數(shù)的輸出結(jié)果將被寫到最后的輸出文件中。當(dāng)所有的Map任務(wù)和Reduce任務(wù)都已經(jīng)完成了的時候,Master激活用戶程序。在這時候Map/Reduce返回用戶程序的調(diào)用點。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型系統(tǒng)體系結(jié)構(gòu)

2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型系統(tǒng)體系架構(gòu)表現(xiàn)層:表現(xiàn)層用于生成用戶訪問的Web頁面,該層是用來實現(xiàn)系統(tǒng)與用戶的一個人機接口。邏輯層:這一層是非常重要也是非常關(guān)鍵的一層,因為他是真正意義上實現(xiàn)用戶層與數(shù)據(jù)存儲計算的紐帶。在這一層里我們利用相應(yīng)的代碼實現(xiàn)前面設(shè)計好的一些關(guān)鍵算法。所以說該層的設(shè)計是實現(xiàn)系統(tǒng)健壯性、可重用性、可擴展性和可維護(hù)性的關(guān)鍵因素。數(shù)據(jù)存儲計算層:該層的實現(xiàn)是由Hadoop平臺實現(xiàn)。存儲數(shù)據(jù)庫選用Hadoop組件中的HBase,由圖中我們可以看出該層主要是負(fù)責(zé)存儲整個搜索引擎的底層結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)存儲層主要包括兩個大規(guī)模的數(shù)據(jù)庫,一是面向爬蟲所得頁面與抽取信息的寫入,二是面向客戶查詢的信息的讀取。在Hadoop平臺中我們選擇多個數(shù)據(jù)節(jié)點即DataNode,用于提高存儲Capacity和計算效率。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)基于Hadoop平臺的MDVSP模型數(shù)據(jù)處理模型框架

2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)內(nèi)容概要總結(jié)與下一步工作

系統(tǒng)的實現(xiàn)

關(guān)鍵技術(shù)闡述基于Hadoop平臺的MDVSP模型

研究的背景、現(xiàn)狀和目標(biāo)2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)關(guān)鍵技術(shù)闡述聚焦爬蟲設(shè)計2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)關(guān)鍵技術(shù)闡述聚焦爬蟲設(shè)計聚焦爬蟲還需要解決三個主要問題:對抓取目標(biāo)的描述或定義;對網(wǎng)頁或數(shù)據(jù)的分析與過濾;對URL的搜索策略;

抓取目標(biāo)的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)關(guān)鍵技術(shù)闡述Map/Reduce設(shè)計Map/Reduce數(shù)據(jù)流設(shè)計把輸入的數(shù)據(jù)進(jìn)行分區(qū),把用戶輸入的文件分割成M個大小均為6M-64M的塊送入Cluster;在集群節(jié)點上首先選擇一個核心節(jié)點,它是主控制程序master,master控制任務(wù)的分配,總共有M個map任務(wù)和R個reduce任務(wù)需要分配。Master會選擇空閑的worker來分配map任務(wù)和reduce任務(wù);用戶數(shù)據(jù)輸入后,會分配一個map任務(wù)給worker,worker讀取并處理相關(guān)的文件塊。MDVSP在這里做了個優(yōu)化,眾所周知IO耗時,但是網(wǎng)絡(luò)的IO的耗時遠(yuǎn)大于本地的IO耗時,所以master會盡量在包含對應(yīng)輸入數(shù)據(jù)塊的副本機器上啟動map操作,或者盡量靠近的機器上,從而降低遠(yuǎn)程IO所帶來的延時;2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)關(guān)鍵技術(shù)闡述Worker讀取塊后會處理數(shù)據(jù),分析出key/value然后傳遞給用戶定義的map函數(shù)。Map函數(shù)將中間結(jié)果暫時存放在緩沖的內(nèi)存中。Mapworker執(zhí)行結(jié)束后,它會通知數(shù)據(jù)處理的地址(而不是數(shù)據(jù),這樣效率非常高)主控制器master,master更新自身的數(shù)據(jù)結(jié)構(gòu),并且負(fù)責(zé)把這些信息告知Reduceworker。Master的工作流程好比報刊的訂閱/發(fā)行業(yè)務(wù)流,每當(dāng)master的緩沖文件的位置信息的結(jié)構(gòu)更新時,他就告訴所有的正在運行狀態(tài)的Reduceworker。Recudeworker會迭代所有的排序后的中間數(shù)據(jù)集合,并且把key和相關(guān)的中間結(jié)果值集合傳遞給用戶定義的reduce函數(shù)。Reduce函數(shù)會將內(nèi)容輸出到一個最終的文件中。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)關(guān)鍵技術(shù)闡述容錯與可靠性設(shè)計機制描述Backup就是有多個master實例,備份的master實例是inactive狀態(tài),但是保持?jǐn)?shù)據(jù)結(jié)構(gòu)和管事兒的master一致。一旦工作中的master宕機,馬上替換掉。Checkpoint就是master一段時間會將整個數(shù)據(jù)結(jié)構(gòu)持久化到全局文件系統(tǒng)中(類似于寫日志),宕機后,就從上一個checkpoint開始啟動master進(jìn)程。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)關(guān)鍵技術(shù)闡述容錯與可靠性設(shè)計畢竟在一個大規(guī)模集群中,單點故障失效的問題也很常見。Master維護(hù)同一個任務(wù)下所有Mapworker和Reducework的狀態(tài)信息,它會周期性的ping下他們,如果有不回應(yīng)的,Master就猜測該worker所在節(jié)點可能出現(xiàn)故障,對于Mapworker(即使它完成了),它會另外找一臺機器在上面啟一個新的worker重新執(zhí)行失效worker的任務(wù),而對于Reduceworker,如果完成了的話,就不需要重新執(zhí)行,負(fù)責(zé)需要和Map一樣處理。這是因為Reduceworker的輸出已經(jīng)存放到全局文件系統(tǒng)(留有副本),而Mapworker的輸出存放到本地文件上。重新執(zhí)行Map時,Master會將新的Mapworker信息告知Reduce們。這個機制能很容易的應(yīng)付較大尺度的worker失效問題。但對于Master呢,一旦壞掉就宕機,所以master一般有兩種機制,有backup和checkpoint。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)關(guān)鍵技術(shù)闡述遠(yuǎn)程調(diào)用設(shè)計RPC是個遠(yuǎn)程過程調(diào)用協(xié)議,類似于XMLRPC,但是工作方式有很大的不同,結(jié)合基于Hadoop的MDVSP系統(tǒng),進(jìn)行了改進(jìn)、封裝,包括兩部分,一個是Java服務(wù)器端的JAVA-RPC,一個是JavaScript客戶端的JS-RPC,兩個封裝包統(tǒng)稱為MDVSP-RPC。MDVSP-RPC僅僅使用HTTP的GET和POST兩種方式的請求,不對HTTP協(xié)議的其他請求方式(如HEAD、PUT、DELETE等)提供支持。MDVSP-RPC在設(shè)計的時候要求使用POST,僅在無法使用POST進(jìn)行請求的操作的時候,才考慮使用GET。因為MDVSP-RPC請求不保證是冪等性操作,使用GET請求做非冪等性操作,會破壞GET的原始語義。遠(yuǎn)程調(diào)用過程中,參數(shù)和返回結(jié)果都是通過JAVA的序列化形式表示。傳輸編碼采用Base64和JavaScript等字符串方式編碼。密鑰交換采用Diffie-Hellman密鑰交換算法。數(shù)據(jù)加密采用XXTEA加密算法。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)關(guān)鍵技術(shù)闡述遠(yuǎn)程調(diào)用設(shè)計請求的格式采用標(biāo)準(zhǔn)的application/x-www-form-urlencoded

格式,因為這種格式對于任何HTTP客戶端和服務(wù)器來說都是容易構(gòu)造和解析的,且可以保持GET和POST請求的構(gòu)造和解析的一致性。響應(yīng)的格式采用純文本,所以服務(wù)器可以設(shè)置響應(yīng)的Content-Type為text/plain,并設(shè)置明確的字符集。響應(yīng)格式類似于多行JavaScript賦值語句,例如:MDVSP_rpc_result=“B:1“;MDVSP_rpc_errno=”0”;MDSVP_rpc_output=“”;2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)關(guān)鍵技術(shù)闡述Hadoop的HA設(shè)計2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)內(nèi)容概要總結(jié)與下一步工作

系統(tǒng)的實現(xiàn)關(guān)鍵技術(shù)闡述基于Hadoop平臺的MDVSP模型

研究的背景、現(xiàn)狀和目標(biāo)2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)系統(tǒng)實現(xiàn)開發(fā)平臺及其開發(fā)工具操作系統(tǒng)

我們web服務(wù)器采用CentOS(CommunityENTerpriseOperatingSystem)操作系統(tǒng),為什么呢?因為CentOS是Linux發(fā)行版之一,它是來自于RedHatEnterpriseLinux依照開放源代碼規(guī)定釋出的源代碼編譯而成。由于出自同樣的源代碼,因此有些要求高度穩(wěn)定性的服務(wù)器以CentOS替代商業(yè)版的RedHatEnterpriseLinux使用。內(nèi)核版本為2.6.9-42.0.3.ELsmp。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)系統(tǒng)實現(xiàn)開發(fā)平臺及其開發(fā)工具硬件平臺我們選用CiscoUCSC200M1服務(wù)器實現(xiàn)計算性能與I/O靈活性完美平衡的高密度服務(wù)器,硬件平臺是HW4.0,主要有以下特性:CiscoUCSC200M1服務(wù)器配有兩枚四核IntelXeon5500系列處理器。這些多核處理器能夠根據(jù)應(yīng)用需求自動地智能調(diào)節(jié)服務(wù)器性能。最多可支持96GB工業(yè)標(biāo)準(zhǔn)DDR3主內(nèi)存。最大提供4TB存儲。兩個千兆以太網(wǎng)端口和一個10/100Mbps的管理端口。雙冗余電源能夠提高可靠性、可用性和串口的接口。2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)開發(fā)平臺及其開發(fā)工具開發(fā)工具服務(wù)器后臺開發(fā)語言采用Java,有以下幾個原因:由于Hadoop平臺是基于java開發(fā)的,考慮到兼容和可移植性,采用Java語言進(jìn)行程序設(shè)計。Java程序容易部署,在操作系統(tǒng)上安裝Java虛擬機就可運行。而且現(xiàn)在Java平臺已經(jīng)嵌入到幾乎所有的操作系統(tǒng)中。考慮到程序中需要有大文本抽取分析,本系統(tǒng)也選用了Perl(PracticalExtractionandReportLanguage)語言,版本是v5.10.0。Perl具有高級語言(如C)的強大能力和靈活性。與腳本語言一樣,Perl不需要編譯器和鏈接器來運行代碼,只要告訴Perl怎么做就可以了。Perl提供腳本語言(如sed和awk)的所有功能,在文本分析方面效率遠(yuǎn)遠(yuǎn)高于Java語言。系統(tǒng)實現(xiàn)2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)實現(xiàn)效果系統(tǒng)實現(xiàn)2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)實驗結(jié)果對比數(shù)據(jù)量Oracle單機測試基于Hadoop平臺節(jié)約時間20萬1.1秒1.4秒-0.4秒500萬7.6秒3.1秒4.5秒1000萬29秒10.4秒18.6秒2000萬42秒13秒29秒5000萬78秒18.8秒50.2秒我們的實驗都是單層擴展,首先考察數(shù)據(jù)規(guī)模對Hadoop平臺性能的影響。數(shù)據(jù)源分別20萬、500萬、1000萬、2000萬、5000萬。初始節(jié)點個數(shù)為2。為了減少單次實驗的偶然性,表中的實驗結(jié)果是3次實驗的平均值系統(tǒng)實現(xiàn)2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)

為了更直觀地看到對比結(jié)果,我們將表用折線圖表示出來,其中縱坐標(biāo)是時間,縱坐標(biāo)表示數(shù)據(jù)集的大小。實驗結(jié)果對比系統(tǒng)實現(xiàn)2024/2/4基于Hadoop平臺的教育資源垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)系統(tǒng)實現(xiàn)對比結(jié)果表明:隨著數(shù)據(jù)量的不斷增大,Hadoop版本系統(tǒng)節(jié)約的時間越多,優(yōu)勢越明顯。數(shù)據(jù)增加的時候,Oracle單擊版系統(tǒng)用時增加幅度高于Hadoop版本系統(tǒng)。數(shù)據(jù)量很小的時候,Hadoop版本系統(tǒng)的擴展效率反而不如Oracle。實驗結(jié)果與我們最初的預(yù)想有一定差距,因為在數(shù)據(jù)量增大的基礎(chǔ)上Hadoop平臺并沒有表現(xiàn)出特別大的優(yōu)勢。重新分析一下實驗,歸結(jié)了以下原因:第一,對于我們的實驗數(shù)據(jù)源按照一條記錄1k大小來計算,5000萬條記錄實際上才只有40G的數(shù)據(jù)量。Hadoop平臺只有在處理超大規(guī)模數(shù)據(jù)的時候才能顯示出其優(yōu)勢。如果處理的數(shù)據(jù)源是通信企業(yè)內(nèi)部的真實業(yè)務(wù)數(shù)據(jù),Hadoop平臺就會顯示出強大的數(shù)據(jù)處理能力。處理小規(guī)模的數(shù)據(jù)集合的時候,反倒還不如傳統(tǒng)的關(guān)系數(shù)據(jù)庫效率高。第二,隨著數(shù)據(jù)源的不斷增加,新增節(jié)點不斷地增加。有第四章可以知道,擴展出的新節(jié)點的數(shù)目會影響通信社會網(wǎng)絡(luò)分析與可視化系統(tǒng)的性能。當(dāng)然,這不是Hadoop自身的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論