人口統計項目解決方案說明書_第1頁
人口統計項目解決方案說明書_第2頁
人口統計項目解決方案說明書_第3頁
人口統計項目解決方案說明書_第4頁
人口統計項目解決方案說明書_第5頁
已閱讀5頁,還剩6頁未讀 繼續免費閱讀

VIP免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人口統計項目解決方案說明書XX科技股份有限公司編制目錄TOC\o"1-2"\h\u一、項目存在問題及需解決問題 31. 存在問題 32. 需解決問題 4二、解決方案 51.解決方案架構 52.關鍵技術 6三、開發范圍 91. 數據生產 92. 數據采集/消費 93. 數據分析 104. 數據展示 11

項目存在問題及需解決問題存在問題傳統人口統計需要投入大量的人力和物力且組織工作較為繁重。同時,不能進行實時統計,人口普查間隔周期過長,數據容易失去連續性。隨著時間推移,數據分析的準確性也有偏差,影響人口工作決策。傳統的人口統計主要有以下幾個方面的難點。統計周期長隨著人口數量的增加、人口流動性的增大,傳統的人口數據采集更加困難,且在統計過程中所耗費的時間、人力、物力也相當可觀。從1949年至今,中國分別在1953年、1964年、1982年、1990年、2000年與2010年進行過六次全國性人口普查。人口普查每10年進行一次,第六次人口普查大致劃分為準備階段、入戶調查和復查階段、數據匯總和資料開發利用階段等三個階段,共歷時4~5個月。資源耗費巨大2010年第六次人口普查,中央政府和地方政府安排80億元左右的預算資金,借調和招聘超過600萬名普查人員。政府為何要投入如此大的力量呢?因為人口統計對國家意義重大,對老百姓來講也非常重要,是國家制定經濟、社會等各項政策的最基本依據,關系到公共設施的建造及社會保障體系的建設、就業崗位的提供和基本公共服務均等化的推進等。盡管有充足的投入和支持,在第六次人口普查中依然存在流動人口多、人戶分離現象普遍、入門較難等很多挑戰。質量控制難度高由于人口統計工作量大可能導致調查的精確度下降,調查質量不易控制。調查過程中可能會出現瞞報漏報、調查內容有限等問題,易產生重復和遺漏現象,從而影響統計數據的真實性;加之時間的推移和人口流動遷移等因素,也促成了部分指標統計誤差較大、數據參考價值降低的情況。盡管有人口信息資源,但目前在人口信息資源的管理方面還不完善,數據統計路徑不一致、數據失真現象嚴重,數據共享機制不健全,致使人口數據在實際應用中發揮的作用十分有限。數據不可跟蹤人口抽樣會遇到涉及面窄、翔實數據信息難獲得、外來人口信息資源嚴重缺乏等問題。傳統人口統計數據不具備時效性,不能滿足事前預測的需求,無法有效避免一些危機情況發生。傳統統計數據關聯性不高,沒有連續性,無法追蹤行為軌跡,關聯社會關系。傳統的人口抽樣統計方式如同一潭湖水,是靜止的,而人是動態的,因此傳統人口統計方式缺少靈活性及可延伸空間。需解決問題來自電信運營商的真實數據更靈活、個性化。人口統計通過對海量的電信數據進行挖掘分析,基于可靠的建模技術構建人口統計模型、人口分類模型、業務識別及分析模型、消費行為聚類分析模型等,在業內處于領先水平。這些海量數據是傳統人口調查需要耗費巨大付出才能收集到的,且具備相當高的真實度。現在通過大數據可以用相對低的成本得到更加豐富、更多維度的數據分析。構建具備長效機制的數據生態平臺。人口統計平臺是隨著時間、條件的變化而不斷豐富、發展和完善的可持續發展平臺。它如同一個數據的大水庫,開源節流,不斷注入新數據,給出更精準的數據分析。人口統計平臺可以隨著需求不斷升級,融合多維度數據,創新出更科學的分析技術。人口統計在求變中確保穩定的大數據分析支持,在推動自身升級發展的同時,也推動了行業的變革與發展。人口統計電信運營商提升數據價值,將數據價值轉化成為可應用的數據解決方案,讓政府、企業突破傳統數據統計的束縛,進入大數據應用的新時代。解決方案解決方案架構系統開發平臺使用Hadoop大數據開發平臺。Hadoop是一個高度可擴展的存儲平臺,可以存儲和分發橫跨數百個并行操作的廉價的服務器數據集群。能擴展到處理大量的數據,能提供成百上千TB的數據節點上運行的應用程序。Hadoop能夠有效的在幾分鐘內處理TB級的數據。相比關系型數據庫管理系統更具有優勢。它適用于任何規模的非結構化數據持續增長的企業,將幫助用戶持續提高用戶體驗。系統采用面向對象的軟件設計方法,把整個系統看作是多個離散對象的組合。系統設計時,首先把業務流程分解成功能模塊及其業務實體對象,然后根據業務流程分析對于這些業務實體對象的操作方法,形成業務處理對象,最后把各個功能模塊關聯起來,形成系統。軟件設計是一個將需求轉變為軟件的過程,系統通過逐步求精使得設計陳述逐漸接近于源代碼。系統程序采用MVC的設計思想,將展現邏輯、控制邏輯、業務處理邏輯分離。系統采用參數化的設計思想,定義和管理系統的實體及配置,調整實體以適應外部變化。系統采用J2EE技術保證程序邏輯實現的平臺無關性,并便于安裝部署。系統采用AJAX技術,提高客戶操作的交互性,保證實際使用的易用性。系統采用echarts可視化框架實現數據展示。關鍵技術HadoopHadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。SpringMVCSpringMVC:屬于SpringFrameWork的后續產品,已經融合在SpringWebFlow里面。Spring框架提供了構建Web應用程序的全功能MVC模塊。MyBatisMYBatis:是支持普通SQL查詢,存儲過程和高級映射的優秀持久層框架。MyBatis消除了幾乎所有的JDBC代碼和參數的手工設置以及結果集的檢索。MyBatis使用簡單的XML或注解用于配置和原始映射,將接口和Java的POJOs(PlainOldJavaObjects,普通的Java對象)映射成數據庫中的記錄。EchartsECharts是一款基于Javascript的數據可視化圖表庫,提供直觀,生動,可交互,可個性化定制的數據可視化圖表。MySQLMySQL是一個關系型數據庫管理系統,由瑞典MySQLAB公司開發,屬于Oracle旗下產品。MySQL是最流行的關系型數據庫管理系統之一,在WEB應用方面,MySQL是最好的RDBMS(RelationalDatabaseManagementSystem,關系數據庫管理系統)應用軟件之一。MySQL是一種關系型數據庫管理系統,關系數據庫將數據保存在不同的表中,而不是將所有數據放在一個大倉庫內,這樣就增加了速度并提高了靈活性。MySQL所使用的SQL語言是用于訪問數據庫的最常用標準化語言。MySQL軟件采用了雙授權政策,分為社區版和商業版,由于其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,一般中小型網站的開發都選擇MySQL作為網站數據庫。Hivehive是基于Hadoop構建的一套數據倉庫分析系統,它提供了豐富的SQL查詢方式來分析存儲在Hadoop分布式文件系統中的數據:可以將結構化的數據文件映射為一張數據庫表,并提供完整的SQL查詢功能;可以將SQL語句轉換為MapReduce任務運行,通過自己的SQL查詢分析需要的內容,這套SQL簡稱HiveSQL,使不熟悉mapreduce的用戶可以很方便地利用SQL語言查詢、匯總和分析數據。而mapreduce開發人員可以把自己寫的mapper和reducer作為插件來支持hive做更復雜的數據分析。它與關系型數據庫的SQL略有不同,但支持了絕大多數的語句如DDL、DML以及常見的聚合函數、連接查詢、條件查詢。它還提供了一系列的:具進行數據提取轉化加載,用來存儲、查詢和分析存儲在Hadoop中的大規模數據集,并支持UDF(User-DefinedFunction)、UDAF(User-DefnesAggregateFunction)和UDTF(User-DefinedTable-GeneratingFunction),也可以實現對map和reduce函數的定制,為數據操作提供了良好的伸縮性和可擴展性。HBASEHBase–HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術可在廉價PCServer上搭建起大規模結構化存儲集群。ZookeeperZooKeeper是一個分布式的,開放源碼的分布式應用程序協調服務,是Google的Chubby一個開源的實現,是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的軟件,提供的功能包括:配置維護、域名服務、分布式同步、組服務等。FlumeFlume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。開發范圍數據生產對于該模塊的業務,即數據生產過程,一般并不會讓你來進行操作,數據生產是一套完整且嚴密的體系,這樣可以保證數據的安全性。但是如果涉及到項目的一體化方案的設計(數據的產生、存儲、分析、展示),則必須清楚每一個環節是如何處理的,包括其中每個環境可能隱藏的問題;數據結構,數據內容可能出現的問題。數據采集/消費數據采集模塊(消費),在企業中你要清楚流式數據采集框架flume和kafka的定位是什么。我們在此需要將實時數據通過flume采集到kafka然后供給給hbase消費。flume:cloudera公司研發適合下游數據消費者不多的情況;適合數據安全性要求不高的操作;適合與Hadoop生態圈對接的操作。kafka:linkedin公司研發適合數據下游消費眾多的情況;適合數據安全性要求較高的操作(支持replication);因此我們常用的一種模型是:線上數據-->flume-->kafka-->flume(根據情景增刪該流程)-->HDFS線上數據--

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論