智能計算平臺應用開發(初級)-數據采集-數據運維_第1頁
智能計算平臺應用開發(初級)-數據采集-數據運維_第2頁
智能計算平臺應用開發(初級)-數據采集-數據運維_第3頁
智能計算平臺應用開發(初級)-數據采集-數據運維_第4頁
智能計算平臺應用開發(初級)-數據采集-數據運維_第5頁
已閱讀5頁,還剩10頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第5章數據采集數據采集簡介大數據運維數據運維大數據運維是利用大數據技術,定義好各種運維指標,高頻率地監控每臺服務器地運行數據,并統一收集日志,加載到數據庫中。同時,所有數據也會寫入Hadoop集群,利用大數據技術對收集地數據做更多維度地離線分析,形成各種圖表,圖表會與正常情況地指標進行對比,并與監控報警系統關聯起來,實現對整個數據中心地性能與可用性地監控,趨勢分析,幫助運維人員和時調整資源。只有采集到更加有價值地數據,才能高效地分析數據,對數據地運維也能事半功倍。數據更新數據時代,對數據地維護與管理至關重要,特別是日志數據。數據運維人員可以通過日志較為準確且全面地知道系統或設備地運行情況,分析問題產生地原因,根據問題做出維護。對于日志地離線批量采集,優點在于不會占用太多地CPU資源,沒有日志量地瓶頸。采集過程中對于數據地加載入庫,Sqoop支持兩種數據更新方式滿足不同地場景需求:全量導入增量導入數據更新——全量導入數據全量導入是將所有需求導入地數據從關系型數據庫一次性地導入Hadoop中(如Hadoop地分布式存儲系統HDFS,Hadoop地數據倉庫工具Hive等)。全量導入形式使用場景為一次性離線分析場景,需求用sqoopimport命令。數據更新——全量導入參數說明--connect<jdbc-uri>指定JDBC連接字符串--username<username>設置認證用戶名--password<password>設置認證密碼--as-avrodatafile將數據導入Avro數據文件--as-sequencefile將數據導入到SequenceFiles--as-textfile以純文本格式導入數據(默認)-m,--num-mappers<n>使用n個Mapper任務并行導入,默認為4-e,--query<statement>SQL查詢語句。該參數使用時必須指定--target-dir,--hive-table,在查詢語句中一定要有where條件且在where條件中需求包含$CONDITIONS--split-by<column-name>數據切片字段(int類型,m>1時必須指定)全量導入地重要參數說明數據更新——全量導入參數說明--target-dir<dir>HDFS目標目錄(確保目錄不存在,否則會報錯,因為Sqoop在導入數據至HDFS時會自己在HDFS上創建目錄)--where從關系數據庫導入數據時地查詢條件--null-string<null-string>string類型空值地替換符--null-non-string<null-string>非string類型空值地替換符全量導入地重要參數說明數據更新——增量導入在生產環境中,系統可能會定期從與業務相關地關系型數據庫向Hadoop導入數據,導入數據倉庫后進行后續地離線分析。面對這樣地定期導入需求時,不能再將所有數據重新導一遍,而是需求增量導入數據。數據增量導入分兩種:基于遞增列地數據增量導入(append方式);基于時間列地數據增量導入(lastmodified方式)。可以使用--incremental參數指定要執行地增量導入地類型。數據更新——增量導入基于遞增列地數據增量導入(append方式)數據表有一個唯一標識自增列ID,append方式導入數據時,隨著ID值地增加,將不斷添加新行。append方式地重要參數說明參數說明--incremental--incrementalappend表示將遞增列值大于閾值地所有數據增量導入--check-column遞增列(int)--last-value閾值(int)數據更新——增量導入Sqoop選擇append方式增量導入行,需指定包含ID地列--check-column,并指定上一次導入中檢查列地最大值--last-value。如果不設置--last-value參數,那么會導入表中地所有數據,導致數據冗余。例如,一個訂單表包含唯一標識自增列ID,列名為order_id,以主鍵形式存在。在上一次地數據導入中已經將ID值在0~50000之間地訂單數據導入到HDFS中,過了一周之后,根據需求將近期產生地新地訂單數據導入HDFS中。(使用Sqoop工具進行增量導入)指定--incremental參數為append,--check-column參數為order_id,--last-value參數為50000。表示將order_id地值大于50000地訂單數據導入

到HDFS中。數據更新——增量導入基于時間列地數據增量導入(lastmodified方式)在表中需求更新數據時可使用lastmodified方式導入數據,檢查列--check-column必須是一個時間戳或日期類型地字段,用于增量導入--last-value指定地日期之后地記錄。lastmodified方式地重要參數說明參數說明--incremental--incrementallastmodified表示將遞增列值大于閾值地所有數據增量導入--check-column時間列--last-value閾值數據維護與修正數據收集過程中也會有出現錯誤地情況。從數據中得到有價值地信息,關鍵是要保證數據采集過程中數據地完整性與正確性。如果采集到地數據出錯或采集任務失敗了,那么運維人員需求采取恰當地管理手段來解決。數據出錯地情況數據過時;數據格式錯誤;數據內容錯誤;數據多余或不完整等。在數據采集階段,數據地維護與修正可以從采集任務執行質量統計,采集數據項檢查,采集間隔這3個方面進行。數據維護與修正采集任務執行質量統計:檢查采集任務地執行情況統計數據采集任務地成功率,采集數據地完整性。若發現采集任務失敗或采集數據異常,則需記錄詳細信息,以便采取相應措施,如重新制定采集方案,或對數據進行清洗處理等。采集數據項檢查:對數據地完整性,正確性進行檢查分析發現數據不完整時需求自動進行補采或重新采集。提供數據異常事件記錄與告警功能,對于異常數據進行清洗,保證采集地數據具有唯一性與真實性。數據維護與修正采集間隔設置在采集工具地配置文件中,通過修改配置參數可以合理調整采集地任務,如設置采集任務地間隔時間,任務執行地起止時間,設置定時自動執行采集任務等。本章主要介紹了數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論