




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據處理必修一:數據與計算(一輪復習)表格數據處理常見數據問題及解決方法數據缺失:忽略或采用平均值、中間值或概率統計值填充數據重復:進一步審核的基礎上進行合并或刪除數據異常——數據不符合一般規律:這些有可能是要去掉的噪聲,也有可能是含有重要信息的數據對象邏輯錯誤——與實際不符,違背邏輯或規則:對應的字段需要設置取值范圍判斷格式不一致:將不同格式的數據轉換成統一格式后再進行處理數據計算數據計算
(1)如圖1所示,區域G4:G14的數據是通過排名函數RANK計算得到,在G4中輸入公式___________________________,再利用自動填充完成G5:G14的計算。(2)對圖1中浙江省各地市數據按“十年增幅”為關鍵字進行降序排序,則排序的數據區域是_____________。=RANK(F4,F$4:F$14)A4:G14數據計算數據計算
(3)對A4:G15中的數據進行兩次篩選操作,首先對“十年增量”列進行篩選,篩選條件如圖2所示;再對“城市”列篩選,篩選條件如圖3所示,則篩選出的行數為_____1數據計算(4)根據圖1中數據制作了反應各地區人口情況的圖表,如圖2所示,創建圖表的數據區域是_______。B4:D14圖表呈現圖表類型適合展現數據關系柱形圖大小關系折線圖變化趨勢餅圖數據構成百分比雷達圖多項指標比較散點圖變量之間的聯系氣泡圖變量之間的關系大數據處理大數據特點與大數據思維大數據特點(4V):數據體量大(Volume)類型多(Variety)速度快(Velocity):①產生速度快②處理速度快價值密度低(Value)大數據思維:①分析全體數據,而不是抽樣數據②不追求數據的精確性,而能夠接受數據的混雜型③不強調對因果關系的探求,而更加注重相關性大數據大數據處理靜態數據批處理Hadoop、Spark圖數據圖計算Pregel、GraphX流數據流計算Storm、Heron大數據處理思想大數據處理思想——“分治思想”。即將一個復雜的問題拆分成兩個或多個相同或相似的子問題,找到求這幾個問題的解法之后,把它們組合成求整個問題的解法。分解、解決、合并大數據處理框架靜態數據——批處理在處理時已經收集完成、在計算時不會發生改變的數據。
Hbase(數據存儲與管理)數據以文件的形式、用多副本保存在不同的存儲節點中,并進行分布式管理。HDFS用于云盤、網盤的底層。采用基于列的存儲方式,用于存儲半結構化和非結構化數據,具有良好的橫向擴展能力。靜態數據——批處理在處理時已經收集完成、在計算時不會發生改變的數據。
Hbase(數據存儲與管理)靜態數據批處理軟件:Hadoop、Spark流數據——流計算不間斷地、持續地到達的實時數據。流數據的價值會隨著時間
的流逝而降低。
對采集的數據實時分析和計算并反饋實時結果。經處理系統處理完成的數據流直接丟棄或存儲用戶可以實時查詢最新數據分析結果,數據不斷更新,實時推薦給用戶流計算應用:廣告推送、個性化推薦、實時交通流計算軟件:Storm、Streams、S4、Puma流數據與傳統數據區別
流處理系統和傳統的數據處理系統的區別:1、流處理系統處理的是實時的數據,而傳統的數據處理系統處理的是預先存儲好的靜態數據。2、用戶通過流處理系統獲取的一般是實時結果,而傳統的數據處理方式獲取的都是過去某一個歷史時刻的快照。3、流處理系統會實時地把生成的結果不斷的推動給用戶,傳統數據需要用戶主動查詢才能獲取數據。圖數據——圖計算現實世界中以圖形式展現的數據。如社交網絡、道路交通等。圖處理軟件:Pregel、GraphX
文本數據處理文本數據處理應用
020103050604搜索引擎自動摘要機器翻譯論文查重文本分類垃圾郵件過濾文本數據處理過程
分詞數據分析特征提取結果呈現分詞分詞:將連續的子序列按照一定的規范重新組合成詞序列的過程
基于字典在分析句子時與詞典中的詞語進行對比,詞典中出現的就劃分為詞基于統計依據上下文中相鄰字出現的頻率統計,同時出現的次數越高就越有可能組成一個詞,一般與基于字典的分詞方法結合使用基于規則計算機模擬人的計算方式,根據大量的現有資料和規則進行學習,進而分詞jieba分詞函數對應模式cuts精準分詞模式:將句子最精確地切分開cut(s,cut_all=Ture)全模式分詞:將句子中所有成詞的詞語都掃描出來cut_for_search(s)搜索引擎模式分詞:在精確模式的基礎上對長詞再進行切分,將更短的詞語切分出來jieba分詞s="我來到了西北皇家理工學院,發現這兒真不錯"seg_list=jieba.cut(s,cut_all=True)我/來到/了/西北/皇家/理工/理工學/理工學院/工學/工學院/學院/,/發現/這兒/真不/真不錯/不錯s="我來到了西北皇家理工學院,發現這兒真不錯"seg_list=jieba.cut(s,cut_all=False)我/來到/了/西北/皇家/理工學院/,/發現/這兒/真不錯s="我來到了西北皇家理工學院,發現這兒真不錯"seg_list=jieba.cut_for_search(s)我/來到/了/西北/皇家/理工/工學/學院/理工學/工學院/理工學院/,/發現/這兒/真不錯特征提取在中文文本分析中采用字、詞、短語作為表示文本的特征項。特征提取方式:①根據專家知識挑選有價值的特征。②用數學建模的方法構造評估函數自動選取特征。
結果呈現——標簽云
關鍵詞的視覺化描述。用文字大小等形式來表現詞語的重要性應用于報紙、雜志等傳統媒體和互聯網結果呈現——文本情感分析
計算機通過技術對文本的主觀性、觀點、情緒進行挖掘和分析,對文本的情感情緒做出分類的判斷。
主要應用于輿情監控、信息預測,或用于判斷產品的口碑,進而幫助生產者改進產品人工智能AI緊密相關的領域
人工智能人工智能的概念人工智能:1、以機器(計算機)為載體2、模仿、延伸和擴展人類智能3、與生物智能有著重要區別。人工智能符號主義我感覺到頭暈、乏力、畏寒,體溫37.5℃這是發燒了,需要服用退燒藥,注意飲食清淡符號主義=知識庫+推理引擎典型案例:專家系統符號主義從海量數據出發,尋找數據中蘊含的模式——聯結主義聯結主義典型案例:深度學習、模式識別聯結主義行為主義結果反饋調整學習方式無效學習有效學習行為主義:從“交互——反饋”角度刻畫智能行為,是一種問題引導下的試錯學習。典型案例:強化學習、掃地機器人行為主義人工智能領域人工智能依賴于領域知識和數據的人
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司治理與戰略風險管理的整合思路試題及答案
- 未來戰略執行中的風險預判試題及答案
- 面對挫折的樂觀態度2024年高考作文試題及答案
- 2025年軟考知識體系優化方案試題及答案
- 行政法學知識整合試題及答案探討
- 2025年公司運營中戰略適應性的探討試題及答案
- 軟件開發中的用例分析試題及答案
- 數據庫設計中的正則化與規范化試題及答案
- 網絡管理員考試備考資源與試題及答案
- 領導力發展的不同階段及策略計劃
- 北京2025年國家大劇院招聘24名專業技術人員筆試歷年參考題庫附帶答案詳解
- 2024建安杯信息通信建設行業安全競賽題庫及答案【三份】
- 2025年信息系統管理知識考試試題及答案
- 中介股東合同范例
- 馬法理學試題及答案
- 合伙人協議書模板
- 2025年下半年揚州現代農業生態環境投資發展集團公開招聘易考易錯模擬試題(共500題)試卷后附參考答案
- 2025年中考第一次模擬考試卷:生物(成都卷)解析版
- 2025年山東濟南先行投資集團有限責任公司招聘筆試參考題庫附帶答案詳解
- 從實踐中學習醫療人文關懷的案例分享
- 2025年上半年重慶合川區招考事業單位工作人員易考易錯模擬試題(共500題)試卷后附參考答案
評論
0/150
提交評論