




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、2015年技術專長培養大數據架構專業一種基于大數據平臺的移動通信信令系統謝識常目錄摘要21.背景22.系統框架33.系統關鍵模塊33.1 系統采集、解析、存儲方式43.2 數據的建模設計54數據處理中的關鍵技術64.1 Hadoop基礎64.2 基礎數據采用Hbase數據庫存儲74.3 匯總KPI數據使用Hive構建數據倉庫84.4 上層應用查詢考慮Impala數據查詢工具94.5 Spark計算框架的引入114.6 硬件架構參考135.結論156.鳴謝15摘要 信令系統是運營商日常運維的重要支撐手段?,F階段數據業務急劇增長,基于傳統數據庫的信令平臺對信令數據的處理越來越困難。本文探討一種基于
2、大數據平臺的移動通信信令系統。先給出系統的主要框架,論述數據處理的流程,已經討論系統涉及的關鍵大數據技術,最后給出一個硬件的配置參考樣例。1.背景2012年廣州在全國率先建設TD-LTE試驗網絡,2014年廣州4G網絡正式商用?,F階段數據業務需求猛增、流量急速增漲。移動需要四網協同(WLAN、LTE、3G、2G),做到集中管理、實時維護網絡存在的問題,及時處理網絡故障。信令是網絡交流的語言,網絡的管理與優化需要完善的信令系統的支撐。隨著用戶、業務、信令數據的急劇膨脹,基于傳統數據庫的信令系統已經很難滿足網絡運維優化的實時、存儲及分析要求。例如,2015年廣州本地信令系統對于4G KPI指標只能
3、做到15分鐘粒度的統計,現在客戶感知越來越敏感,5分鐘內的指標監控能提高網絡運維側響應網絡故障與隱患的主動性;此外,隨著信令數據膨脹,傳統數據庫不能做到線性增加,數據庫分表、分庫操作復雜,存儲效率低,廣州本地信令系統由于數據庫調整造成不可用的時間越來越長;另外,在網絡數據的價值挖取當中也缺乏靈活手段,目前只能按幾種固定的時空、網元、目的IP等維度的統計。大數據技術的日益成熟,在通信領域運用越來越廣。更多運營商開始部署基于大數據平臺的信令系統。基于大數據解決方案的信令系統就是在這樣的背景下,專門為規劃、運維、優化等部門員工提供所需的支撐數據,提供解決方案的綜合分析優化平臺。對于移動信令分析,大數
4、據首先是面臨著越來越多的海量數據挑戰;其次,要通過合適的分析處理,從大量數據中分析出工程人員需要的數據,區分出重點數據及非重點數據,分辨出哪些數據是實時需要的,哪些數據是需要存儲,為以后工程人員查詢所需要的,并形成實時網絡性能管理、故障性能告警、客戶感知預警、客戶投訴處理、市場營銷支撐等應用功能及數據模塊。本文探討一種基于大數據平臺的移動信令系統。2.系統框架信令系統通常采取分層結構設計,應用功能松耦合設計,具有優點是縮短應用上線周期,降低開發成本。從下往上分為:采集層、存儲計算層、接口層以及應用層。(1)采集層:在移動核心網的主要網絡接口部署分光設備,分光器出來的原始信令為原始碼流,經由匯聚
5、分流設備后,解析生產原始話單xDR;xDR再經過清洗、抽取、轉換操作后入庫。采集層可不斷擴展,獲取更多的數據源。(2)存儲與計算層:是整個系統的核心部分,主要解決數據的實時計算、以及xDR話單的長期存儲、預統(輕度匯總數據)的生成與存儲,其他數據的存儲,并通過共享模塊,實現數據共享 。(3)應用層:可通過多種接口方式,實現與共享層的數據交互 。圖2.1 信令系統分層框架3.系統關鍵模塊應對海量數據的高效處理、存儲,多種類型數據的處理 圖3.1 數據處理流程3.1 系統采集、解析、存儲方式1、數據采集與解析原始信令由專門的采集解析服務器對原始信令數據進行采集解析;目前廣東采取統一的采取匯聚平臺。
6、篩選后的原始信令保存在采集機本地存儲,建立信令索引,提供信令回放、信令流程查詢。解析后的信令形成XDR,送給信令匯總模塊進行關聯回填和各種維度的KPI預統計。關聯回填后的XDR數據以及單用戶單業務記錄發送到Hadoop集群存儲,利用Hadoop并行列存儲的特性,容易實現線性擴容。2、數據存儲數據加載集群,可實現xDR等文件的臨時緩存。對不同數據采取不同存儲方式:XDR話單文件,則使用Hbase數據庫+HDFS方式存儲(當前存兩周) ;匯總數據,采用MPP數據庫長期存儲,使用的是Hive/Impala+HDFS 。3、數據裝載共享平臺前置加載集群,用于接收獲取統一采集平臺等上傳XDR話單文件;通
7、過加載集群,向處理集群提供緩存的原始數據,可用于數據恢復、庫外預統;通過加載集群,提供應用層和統一采集平臺之間的通道,提供第三方數據接口(簡單處理或透傳給應用層)。 4、數據處理數據匯總,按照多種維度進行數據匯總提高查詢速度,減少存儲空間 。數據關聯處理,多張數據表,多種xDR類型進行聯合處理,形成OLAP分析結果 數據聚合處理,按全省對各個地市進行聚合等,通過聚合處理,形成OLAP分析結果。數據計算,進行各種維度的KPI指標計算。在處理流程上,可以理解為,我們采用庫內,以及庫外兩種處理方式。3.2 數據的建模設計 為了滿足多樣的應用層數據需求,需要對數據建模:多租戶模式,為不同權限的用戶提供
8、其所擁有訪問權限的數據 。每種應用都會對其抽象為一個數據模型,系統根據數據模型,生成相關的應用實現。大型信令平臺通常在一個省集中部署,須考慮多租戶模式。多租戶模式容易出現數據和集群資源管理混亂的情況,可考慮建立統一調度平臺,實現數據統一化管理,任務合理調度,集群資源按需分配。多租戶模式下,數據的安全性是重要問題,集群需要將不同用戶的數據統一管理運維,對不同用戶的數據進行權限隔離。用戶通常是Hadoop集群的省公司內不同部門或者不同地市公司 。Hadoop可以對不同文件目錄給不同用戶賦予不同權限,實現數據統一管理。通??梢越⑷壞夸洠旱谝患墳橛脩艏?,不同用戶擁有自己的私用目錄,每個用戶不能訪問
9、其他用戶,同時設置公共目錄,集群用戶可訪問公共目錄。第二級根據數據類型劃分,第三級跟進時間劃分,對數據規范存放。數據建模體系可以大概按以下分層:1) 數據裝載層:緩存明細數據,網管數據,根據源系統的數據模型進行建模; 2) 基礎數據層:存儲經過處理的明細數據 3) 數據倉庫層:存儲基礎數據層的匯總數據,根據數據倉庫的維度建模 4) 數據集市層:面向主題分析的匯總數據,面向應用建模 采用分層、分功能建模 1) 原始數據建模使用分布式文件的存儲和設計方法 2) 基礎數據和明細應用數據建模使用Hbase的建模方法 3) 不同維度匯總數據和計算結果使用Hive/Impala的建模方法 圖3.2 數據處
10、理模塊4數據處理中的關鍵技術本小結介紹信令系統中應用的關鍵技術,包括:Hadoop基礎、Hbase、Hive、Impala、Spark。4.1 Hadoop基礎Hadoop就是一個實現了Google云計算系統的開源系統,包括并行計算模型Map/Reduce,分布式文件系統HDFS,以及分布式數據庫Hbase。1、HDFSHadoop Distributed File System,簡稱HDFS,是一個分布式文件系統。 HDFS是高容錯性的,可以部署在低成本的硬件之上,HDFS提供高吞吐量地對應用程序數據訪問,它適合大數據集的應用程序。MapReduce是hadoop的核心組件之一,hadoop
11、要分布式包括兩部分,一是分布式文件系統hdfs,一部是分布式計算框,就是mapreduce,缺一不可,也就是說,可以通過mapreduce很容易在hadoop平臺上進行分布式的計算編程。Mapreduce是一種編程模型,是一種編程方法,抽象理論。核心包括map函數和reduce函數,map函數和reduce函數是交給用戶實現的,這兩個函數定義了任務本身。 map函數:接受一個鍵值對(key-value pair),產生一組中間鍵值對。MapReduce框架會將map函數產生的中間鍵值對里鍵相同的值傳遞給一個reduce函數。 reduce函數:接受一個鍵,以及相關的一組值,
12、將這組值進行合并產生一組規模更小的值(通常只有一個或零個值)。 4.2 基礎數據采用Hbase數據庫存儲 移動信令中的xDR明細數據存入Hbase列式數據庫。Hbase是運行在Hadoop上的NoSQL數據庫,它是一個分布式的和可擴展的大數據倉庫,也就是說HBase能夠利用HDFS的分布式處理模式,并從Hadoop的MapReduce程序模型中獲益。這意味著在一組商業硬件上存儲許多具有數十億行和上百萬列的大表。除去Hadoop的優勢,HBase本身就是十分強大的數據庫,它能夠融合key/value存儲模式帶來實時查詢的能力,以及通過MapReduce進行離線處理或者批處理的能力??偟?/p>
13、來說,Hbase能夠讓你在大量的數據中查詢記錄,也可以從中獲得綜合分析報告。 圖4.1 Hbase存儲示意圖HBase不是一個關系型數據庫,它需要不同的方法定義你的數據模型,HBase實際上定義了一個四維數據模型,下面就是每一維度的定義:· 行鍵:每行都有唯一的行鍵,行鍵沒有數據類型,它內部被認為是一個字節數組。· 列簇:數據在行中被組織成列簇,每行有相同的列簇,但是在行之間,相同的列簇不需要有相同的列修飾符。在引擎中,HBase將列簇存儲在它自己的數據文件中,所以,它們需要事先被定義,此外,改變列簇并不容易。· 列修飾符:列簇定義真實的列,被稱之為列修飾符,你可
14、以認為列修飾符就是列本身。· 版本:每列都可以有一個可配置的版本數量,你可以通過列修飾符的制定版本獲取數據。4.3 匯總KPI數據使用Hive構建數據倉庫 Hive是建立在 Hadoop 上的數據倉庫基礎構架 。Hive 的查詢是通過 MapReduce 框架實現的,是為實現針對海量數據的高性能處理而設計的。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數據,可以進行復雜的查詢。另外,HiveQL可以運用任何語言自定義mapper和reducer腳本,具有極大的可擴展性,實現非常復雜的查詢。Hive采用HDFS進行數據存儲并利用MapRedu
15、ce框架進行數據操作;所以從本質上來說,Hive就是個編譯器,它把用戶的操作(查詢或者 ETL)變換成 M/R任務,利用M/R 框架執行這些任務對HDFS 上的海量數據進行處理。 Hive被設計成一種批處理系統。它利用MapReduce框架來處理數據。因此,它在MapReduce任務提交和調度上有比較高的開銷。圖4.2 Hive技術框架Hive和傳統的關系型數據庫有很大的區別,Hive將外部的任務解析成一個MapReduce可執行計劃,而啟動MapReduce是一個高延遲的一件事,每次提交任務和執行任務都需要消耗很多時間,這也就決定Hive只能處理一些高延遲的應用(如果你想處理低延
16、遲的應用,你可以去考慮一下Hbase)。同時,由于設計的目標不一樣,Hive目前還不支持事務;不能對表數據進行修改(不能更新、刪除、插入;只能通過文件追加數據、重新導入數據);不能對列建立索引。4.4 上層應用查詢考慮Impala數據查詢工具 為提高查詢效率,上層考慮應用Impala。Impala用來進行大數據實時查詢分析的開源工具 。采取SQL風格來操作大數據,數據存儲到HDFS(可Hbase) 。Impala 與Hive都是構建在Hadoop之上,Hive適合于長時間的批處理查詢分析,而Impala適合于實時交互式SQL查詢。圖4.3 Impala技術框架圖4.4 Impala部署在HBa
17、se之上使用Impala來實現SQL on Hadoop,實現對海量數據的實時查詢分析。Impala使用Hive Metastore來存儲一些元數據,為Impala所使用 。Impala會在HDFS集群的Datanode上啟動進程,協調位于集群上的多個Impala進程(impalad),以及執行查詢 。HBase和HDFS存儲著實際需要查詢的大數據 圖4.5 Impala查詢示意Impala的查詢效率比Hive有數量級的提升。從技術角度上來看,Impala之所以能有好的性能,主要有以下幾方面的原因。· Impala不需要把中間結果寫入磁盤,省掉了大量的I/O開銷。· 省掉了
18、MapReduce作業啟動的開銷。MapReduce啟動task的速度很慢(默認每個心跳間隔是3秒鐘),Impala直接通過相應的服務進程來進行作業調度,速度快了很多。· Impala完全拋棄了MapReduce這個不太適合做SQL查詢的范式,而是像Dremel一樣借鑒了MPP并行數據庫的思想另起爐灶,因此可做更多的查詢優化,從而省掉不必要的shuffle、sort等開銷。· 通過使用LLVM來統一編譯運行時代碼,避免了為支持通用編譯而帶來的不必要開銷。· 用C+實現,做了很多有針對性的硬件優化,例如使用SSE指令。· 使用了支持Data localit
19、y的I/O調度機制,盡可能地將數據和計算分配在同一臺機器上進行,減少了網絡開銷。4.5 Spark計算框架的引入 Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數據集。盡管創建 S
20、park 是為了支持分布式數據集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoo 文件系統中并行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用來構建大型的、低延遲的數據分析應用程序。Apache Spark是一個新興的大數據處理引擎,主要特點是提供了一個集群的分布式內存抽象,支持需要工作集的應用。 具有如下特點:l 基于RDD的抽象,實數據處理邏輯的代碼非常簡短; l 提供很多轉換和動作,不僅僅是MAP/REDUCEl
21、通過在內存中緩存數據,提高迭代式計算的性能 l 通過將流拆成小的batch提供Discretized Stream處理流數據,降低時延 Batch Layer,HDFS+Spark Core,將實時的增量數據追加到HDFS中,使用Spark Core批量處理全量數據,生成全量數據的視圖。 Speed Layer,Spark Streaming來處理實時的增量數據,以較低的時延生成實時數據的視圖。Serving Layer,HDFS+Spark SQL,存儲Batch Layer和Speed Layer輸出的視圖,提供低時延的即席查詢功能,將批量數據的視圖與實時數據的視圖合并圖4.6 Spark計算架構4.6 硬件架構參考 系統可主要基于x86平臺,采用Pc Server分布式集群部署。可視為在物理上,作為一個集群,資源共享 。廣東移動業務端到端平臺采用65臺服務器,2個主節點,8臺實時計算(入庫),剩余的55臺為集群 。設備名稱 主要參數 數量 單位 備注 統一加載服務器集群 2*2.6G 6核CPU,96G/64G DDR3內存,2*900G+10*3T硬盤,2個GE電口,2個10GE光口 8臺 實時數據統計處理集群 2*2.6G 6核CPU,64G DDR3內存,2*900G,2個GE電口,2個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 移動互聯網時代的公共政策變革試題及答案
- 2025年農村土地流轉振興示范項目資金申請與政策解讀報告
- 未來城市治理中的公共政策試題及答案
- 2025年網絡直播行業自律規范與內容監管策略研究
- 農業產業集群產業鏈協同創新與產業轉型升級報告
- 新手備考西方政治考試的建議試題及答案
- 機電工程分析工具試題及答案
- 農業產業集群形成與發展機制可持續發展研究報告
- 機電工程英語學習的必要性及試題與答案
- 西方國家的民主監督機制試題及答案
- 外科學研究進展智慧樹知到答案章節測試2023年浙江中醫藥大學
- 醫院護士落實VTE預防措施不規范原因分析品管圈魚骨圖
- 《保障農民工工資支付條例》考試試題和答案
- 華南理工大學自主招生考試綜合素質測試面試試題答題技巧匯總
- 畢業論文年產5000噸發酵食醋發酵車間設計
- 采購管理與供應商管理教學課件
- 產品質量法培訓講義課件
- 七步洗手法完整版課件
- 小學語文修改語段課件
- 0kv變電站巡視標準化作業指導書
- 知識產權保護與創新發展課件
評論
0/150
提交評論