




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、面向電子商務的云數據處理與挖掘平臺1.前言1.1.0 何為數據處理與挖掘?所謂數據處理和挖掘(Data Mining)就是從存放在數據庫,數據倉庫或其他信息庫中的海量數據中獲取有效的、新穎的、潛在有用的、最終可理解的信息過程。從數據中提取出隱含過去未知的有價值的潛在信息。1.1.1 使用云數據處理與挖掘的意義隨著信息科技的進步以及電子化時代的來臨,現今企業所面對的是一個與以往截然不同的競爭環境,不僅企業競爭的強度與速度倍增,市場交易也使得各企業所需儲存與處理的數據量越來越龐大。在這種情況下,企業的焦點已從以往的數據整理與搜集轉向有效地利用數據庫來進行信息的獲取。企業如何適應外界的競爭?如何才能
2、快速有效地從數據庫中取得有用的信息?如何反映市場或消費者的需求?這些都已成為各企業重視的焦點。 數據挖掘的技術可將原始數據轉換為可執行的企業指針,例如了解客戶的全貌;預測未來的行為以創造客戶更高的價值;建立客戶流失預測模型以防止客戶的流動;建立風險及信用評估模型以降低企業經營風險;區隔市場挖掘新商機等企業經營決策指針。也唯有將信息轉化為企業利潤的提升,才能真正顯數據倉儲及客戶關系管理等系統的投資效益。因此,數據挖掘運用的范圍廣泛,不但可用來將數字資產轉換為有形的企業營收,更可用來作為其它系統的效益。1.1.1 云數據處理與挖掘的應用領域目前企業界已將數據挖掘應用于多種領域,例如科學、營銷、工業
3、、商業、體育、財務、銀行、制造廠、通訊、電信業、網絡相關行業、零售商、制造業、醫療保健及制藥業,等等。1.1.1 云數據處理與挖掘的未來商業前景網際網絡盛起前,握有最多信息的便是贏家。邁入信息爆炸的網絡時代后,企業獲取及利用信息的方式將決定企業的競爭優勢。對于現代企業而言,數據可以被視為重要的資產,但是又必須要能利用這些數據,也就是把這些龐大的數據轉換為有用的信息,才能產生真正的價值。研究結果顯示:企業所處理的數據每五年就會呈倍數成長。大部分的企業并沒有數據不足的問題,過度的數據重復與不一致才是大問題,這使得企業無論在使用、有效管理、以及將這些數據用于決策過程方面都遭遇到了困難。因此市場需要的
4、是能夠將數據轉變成可靠與可用信息的系統。現代的企業體經常搜集了大量數據,包括市場、客戶、供貨商、競爭對手以及未來趨勢等重要信息,但是信息超載與無結構化,使得企業決策單位無法有效利用現存的信息,甚至使決策行為產生混亂與誤用。所以妥善地運用數據挖掘技術,并以此從巨量的數據庫中將發掘出不同的信息與知識作為決策支持之用,必將能產生并加強企業的競爭優勢。2.云數據處理與挖掘的整體框架MysqlHBase分布式數據庫系統日志數據源Hadoop集群-離線計算(Offline)S4-在線計算(Online)(online)計算層Mysql-Middle-Tool查詢層數據中間層應用開放API2.1.0 架構圖
5、圖-2.1.0 所示3.云數據處理與挖掘框架的詳細設計3.1.0 Mysql 的海量數據分片設計圖隨著互聯網應用的廣泛普及,海量數據的存儲和訪問成為了系統設計的瓶頸問題。對于一個大型的網絡應用,每天幾十億的瀏覽量無疑對數據庫造成了很高的負載。對于系統的穩定性和擴展性造成了極大的問題。通過數據切分來提高網站性能,橫向擴展數據層已經成為架構開發人員第一考慮的方式。水平切分數據庫,可以降低單臺機器的負載,同時最大限度的降低了了死機造成的損失。通過負載均衡策略,有效的降低了單機的訪問負載,降低了死機的可能性;通過集群方案,解決了數據庫死機帶來的單點數據庫不能訪問的問題;通過讀寫分離策略將更大限度提高了
6、應用中讀取數據的速度和并發量,其數據分片架構圖如下:Mysql 集群中間管理層Mysql開放APIMysqlMysqlMysqlMysqlMysqlMysqlMysqlMysqlMysqlMysqlMasterSlave查詢寫入寫入請請求圖-3.1.0 所示通過一系列的切分規則將數據水平分布到不同的數據庫或表中,在通過相應的數據庫路由或者表路由規則找到需要查詢的具體的數據庫或者表,以進行查詢操作。接下來舉個例子:我們針對一個博客應用中的來說明,比如雜志文章(article)表有如下字段:article_id(int),title(varchar(128),content(varchar(102
7、4),user_id(int)其實分析這種博客的應用,能夠理解:博客的應用中,用戶分為瀏覽者和博客的主人。瀏覽者瀏覽某個博客,實際上是在一個特定的用戶的博客下進行瀏覽的,而博客的主人管理自己的博客,也同樣是在特定的用戶博客下進行操作的。所謂的特定的用戶,用數據庫的字段表示就是“user_id”,它就是我們需要的分庫規則的基礎。3.1.1 Mysql 的海量數據物理分片物理分片通過一系列的切分規則將數據分布到不同的DB服務器上,通過路由規則訪問特定的數據庫,這樣每次訪問的就不是單個服務器了,而是多臺服務器,這樣就可以降低單個服務器的負載壓力。圖-3.1.1 所示優點:數據在多個機器上分布,性能高
8、,降低死機的可能性少,數據丟失率小缺點:數據冗余的情況下,數據的一致性難以保證3.1.2 Mysql 的海量數據軟件分片通過一系列的切分規則,將數據分布到一個數據庫的不同表中,比如將article分為article_001,article_002等子表,若干個子表水平拼合有組成了邏輯上一個完整的article表。 tb_articleuser_idtitlecontent1title1.2title2.title3.200000title4.圖-3.1.2.0 所示tb_mainnameuser_idtb_article0011-20000tb_article00220001-40000.tb
9、_article00n180001-2000000圖-3.1.2.1 所示優點:數據一致性保持的較好,易控制缺點:并發量過大,數據庫會出現無法支撐的狀況通過Mysql 這樣一種物理 或者 軟件來進行數據分片的形式,不僅在能夠讓應用程序保持透明的情況,同時在系統性能以及對用戶大并發量的支持都有很大的提升。3.2.0 Nosql HBase 屬性存儲輔佐之悍將 越來越多的人開始喜歡上了網上購物,最熟悉的就是在淘寶上進行購物了,購買商品之前,我們都知道需要先去搜索自己喜歡的商品,待結果出來后,還可以通過不同的類別進行更精細的搜索,示例如下: 圖-3.2.0 所示 對于筆記本電腦這個類目,用戶查詢所選
10、擇的過濾條件可能包括“筆記本尺寸”、“硬盤容量”等一系列屬性(字段),并且在每個可能用在過濾條件的屬性上,屬性值的分布是極不均勻的。在上圖中我們可以看到,筆記本電腦的尺寸這一屬性有著多個個枚舉值,而有些屬性值也可能是布爾值,數據的篩選性非常差,那么如果通過傳統的數據庫去存儲這些數據,表與表之間的依賴,表與表之間的關聯關系就是一個頭痛的問題,那么采用HBase這樣一種分布式的數據庫來做這些相對而言就會容易應對許多,HBase除了基于列式存儲形式之外,還有有個優秀的地方在于它是建立在HDFS之上的,并且對于MapReduce有良好的編程接口,因此,Hbase除了本身的易擴展性能夠很方便的去存儲這些
11、全屬性之外,同時也保證了他們數據的安全性以及工作效率。只有理解傳統數據庫與分布式數據庫的優缺點所在,再將他們結合在一塊,其發揮的力量更大,效率更高。3.3.0 在線數據計算-S4S4是一個通用的、可擴展性良好、具有部分容錯能力、支持插件的分布式流計算平臺,在該平臺上程序員可以很方便地開發處理流數據的應用。S4自身的這種獨特能力,讓它能夠很好的時時進行在線的流式計算,所以對于搜索統計,廣告點擊率,消息通訊 都是非常不錯的,自然對于需要時時在線且需要數據計算的,S4也一樣能夠為之所用。3.3.0.0 S4通訊結構圖ClientClientClientAdapter192.168.1.208TCP/
12、IPS4 ServerUDP協議圖-3.3.0 所示3.3.0.1 S4 小試牛刀./start-s4.sh./s4-image/scripts/run-client-adapter.sh -s client-adapter -g s4 -d s4-image/s4-core/conf/default/client-stub-conf.xml3.3.0.2 S4應用場景S4(Simple Scalable Streaming System)最初是Yahoo!為提高搜索廣告有效點擊率的問題而開發的一個平臺,通過統計分析用戶對廣告的點擊率,排除相關度低的廣告,提升點擊率。但隨著S4的慢慢成熟,人們
13、也開始將它定位成一種分布式流計算,將被應用于更多的領域,目前主要應用方向是,廣告點擊,消息通訊,搜索統計等。3.3.0.3 S4優點和不足優點:能夠大并發的進行時時的流式計算,通訊效率高缺點:沒有嚴格的容錯機制,數據有時會丟失3.3.0.4 S4壓力測試在線實驗集群有16臺服務器,每臺4個32位CPU,2GB內存。每天大約有25萬用戶發起共100萬次搜索,實驗兩周內觀察到的峰值是每秒1600個事件。實驗結果表明S4增加了3%的廣告點擊,主要通過快速檢測低質量廣告并把它們過濾出去。離線實驗集群有8臺服務器,每臺服務器4個64位CPU,16GB內存。集群中跑了16個PN,每臺2個,事件由300萬服
14、務和點擊組成。這次實驗主要用于評估系統在遠高于期望事件流量下的性能。壓力測試結果如下:3.4.0 離線數據計算-Hadoop公司或企業在運營的過程中,隨著時間的推移,數據也在日益的增長,對于公司或者企業而言,數據是他們掌握未來市場的的一種主要途徑,也是他們分析行為,建立模型的一種方式,更是他們分析對手,提高戰略的一種手段, 事實上,分析,加工這些數據 只是針對企業或公司自己而言,因此這些計算又或是加工這些數據,在離線狀態即可完成。 Mysql其他存儲LogHDFS數據源數據抽取到HDFS中數據抽取清洗,加工數據挖掘HiveHiveMahout對數據進行清洗,加工數據挖掘圖-3.4.0 所示3.
15、4.1 Hadoop離線計算過程 首先Hadoop利用自身分布式處理數據的能力,將mysql數據庫或者其他庫文件以及大型的系統日志文件,將其抽取到Hadoop 的HDFS中,原因在于HDFS不僅能夠對數據進行分布式的數據存儲,重要的還是它能夠維護數據的副本,防止數據的丟失,很好的保持數據的完整性。 其次,其次可以使用Hive來進行大型的數據清洗,加工處理,作為原數據,數據結構較亂,不清晰,不方便對數據進行一系列各種各樣的分析,以及相關的行為建模,那么Hive能夠將這些散亂的數據轉成我們按照自身規則定制的且結構清晰的數據,除此之外Hive還給我們提供了類似于SQL這樣一種語句,能方便我們對大型數據的查詢,并且她將這種SQL通過自身轉換成Map-Reduce去處理數據,極大地提高了離線計算的能力。 最后,一系列的數據通過Hive的清洗,加工后,那么就等著我們去進行數據分析與挖掘了,而使用Mahout就能很好的完成這份數據挖掘的工作, 再將挖掘的數據結果存儲在分布式的數據庫hbase中,而這就是我們最終想要的結果,而這份結果不僅為我們企業提供決策的同時也給企業帶來了不可忽視的經濟效益。4.技術總結 數據是企業的一種無形的資產,也是企業公司能否掌握未來,決勝千里之外的籌碼,自然處理數據與數據挖掘也變得愈來愈重要,經
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司畫冊怎樣策劃方案
- 公司新聞播放策劃方案
- 公司百家宴活動策劃方案
- 公司組織敬老院活動方案
- 2025年移動通信工程師考試試題及答案
- 2025年信息檢索與知識管理考試題及答案
- 2025年生物技術相關領域資格考試試卷及答案
- 2025年軟裝設計師職業考試試題及答案
- 2025年青年志愿者能力測試試卷及答案
- 小學班主任工作計劃總結
- 2025年中國數據庫市場研究報告
- 【9語安徽中考卷】2025年安徽省中考招生考試真題語文試卷(真題+答案)
- 礦產資源國際合作-洞察及研究
- 【課件】無脊椎動物+第2課時課件-2024-2025學年人教版生物七年級上冊
- 土木工程CAD-終結性考核-國開(SC)-參考資料
- 新課標背景下:初中生物學跨學科主題學習課程設計與教學實施
- 2024年內蒙古中考地理生物試卷(含答案)
- 會計專業工作簡歷表(中級)
- 人教版二年級語文下冊同音字匯總(共9頁)
- 鄉村旅游綜合體項目可行性研究報告寫作范文
- 扣款確認函(共2頁)
評論
0/150
提交評論