




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)應(yīng)用基礎(chǔ)Python數(shù)據(jù)處理(三)05分析與可視化數(shù)據(jù)要按照數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化處理流程來進(jìn)行。做事要有計劃,任何事情都有其先后順序,做人處事條理要清晰,凡事預(yù)則立不預(yù)則廢,計劃越周詳越精細(xì),則做事越順利。通過制作精美圖表,提升學(xué)生的美學(xué)修養(yǎng)。去哪兒網(wǎng)數(shù)據(jù)分析通過大數(shù)據(jù)分析為景區(qū)制定營銷策略,提供數(shù)據(jù)支撐。大數(shù)據(jù)分析為景區(qū)制定營銷策略,引導(dǎo)學(xué)生樹立民族自信。項目三
去哪兒網(wǎng)數(shù)據(jù)處理df=pd.read_csv('E:/qunar_freetrip.csv',sep='\t',encoding='gbk')print(df.head())讀取數(shù)據(jù)查看數(shù)據(jù)類型print(())去掉列名中的空格#列名中有空格,需要去空格data=df.rename(columns=lambdax:x.strip())print(data.head())思政點(diǎn):數(shù)據(jù)處理要認(rèn)真、細(xì)致,列名中的空格如果不去掉會影響整體數(shù)據(jù)處理過程。通過編寫與調(diào)試程序,讓同學(xué)們切身體會到:任何一個小小的疏忽,哪怕是一個小小的標(biāo)點(diǎn)符號或是單詞拼寫錯誤,整個程序都會報錯或是無法得到正確的結(jié)果。引導(dǎo)學(xué)生無論是在日常學(xué)習(xí)、生活中,還是今后的工作崗位上,都需要養(yǎng)成認(rèn)真、細(xì)心和嚴(yán)謹(jǐn)?shù)淖黠L(fēng)和習(xí)慣。提取需要的數(shù)據(jù)data1=data[['出發(fā)地','目的地','價格','節(jié)省','路線名','酒店']]print(data1.head())思政點(diǎn):化繁為簡,大道至簡,大音希聲,樸素的真理往往都蘊(yùn)含在至精至誠的內(nèi)容中,以小見大地啟迪著人生、滋潤著心靈、教化著萬民,學(xué)習(xí)的核心就在技能精湛和價值塑造,要實現(xiàn)入腦入心,就必須善于引譬設(shè)喻、化繁為簡。缺失值處理#判斷缺失值print((data1.isnull()).sum())#出發(fā)地的缺失值處理chufa=data1.loc[data1.出發(fā)地.isnull(),'路線名'].str.slice(0,2).valuesdata1.loc[data1.出發(fā)地.isnull(),'出發(fā)地']=[xforxinchufa]#目的地的缺失值處理data1.loc[data1.目的地.isnull(),'目的地']=data1.loc[data1.目的地.isnull(),'路線名'].str.slice(3,5)#刪除價格和節(jié)省的缺失值
data2=data1.dropna()思政點(diǎn):數(shù)據(jù)中存在的缺失值要選擇合適的缺失值填充方法,尊重事實,合理選擇。(1)教育學(xué)生在人生道路中,存在諸多選擇,引導(dǎo)學(xué)生樹立正確的世界觀、人生觀、價值觀,養(yǎng)成良好的職業(yè)道德;(2)在面臨個人利益與國家利益相沖突問題時,以國家利益為重。異常值處理#異常值處理print(data2.價格.describe())#異常值處理#三倍標(biāo)準(zhǔn)差判斷法standard=(data2.價格-data2.價格.mean())/data2.價格.std()data3=data2.drop(data2[standard.abs()>3].index,axis=0)三倍標(biāo)準(zhǔn)差:1、正負(fù)1倍標(biāo)準(zhǔn)偏差的概率=68.3%;2、正負(fù)2倍標(biāo)準(zhǔn)偏差的概率=95.5%;3、正負(fù)3倍標(biāo)準(zhǔn)偏差的概率=99.7%;中心極限定理:在適當(dāng)?shù)臈l件下,大量相互獨(dú)立隨機(jī)變量的均值經(jīng)適當(dāng)標(biāo)準(zhǔn)化后依分布收斂于正態(tài)分布。思政點(diǎn):(1)生活中遇到困難或者異常,要積極想辦法,不鉆牛角尖,不放棄不拋棄,堅持到底;(2)在2020年新冠疫情中,國家面對困難,不畏艱難,迎難而上,以人民生命為重,打贏了抗疫的阻擊戰(zhàn),要常懷感恩之心,愛國愛黨,學(xué)好本領(lǐng),報效祖國。文本字符串處理data3[['酒店名','類型','星級']]=data3['酒店'].str.split('',2,True)data3['星級']=data3.星級.str.slice(0,3).astype(np.float32)print(data3.head())思政點(diǎn):酒店的星級數(shù)據(jù)是以文本形式存在的,需要提取其中的數(shù)字并轉(zhuǎn)換為數(shù)值類型才能加以使用。數(shù)據(jù)類型的轉(zhuǎn)換,使學(xué)生理解選擇大于努力,做任何事都要心中有度,“度”是做人的標(biāo)準(zhǔn),意味著人應(yīng)該遵循一定的規(guī)則。條件查詢#篩選出從成都出發(fā)價格小于1200的旅行線路print(data3[(data3.價格<1200)&(data3.出發(fā)地=='成都')])思政點(diǎn):努力尋找數(shù)據(jù)分析方法,激發(fā)學(xué)生分析數(shù)據(jù)的樂趣和熱情,積極思考、用于探索,充分利用知識和技能,展現(xiàn)聰明才智。條件查詢#篩選出價格在1000至1000之間的旅行線路并按價格升序排序print(data3[data3.價格.between(1000,1200)].sort_values(by='價格'))分組分析#統(tǒng)計不同的出發(fā)地與目的地條件下旅行線路的個數(shù)及均價print(data3.groupby(['出發(fā)地','目的地'])['價格'].agg([np.size,np.mean]))交叉分析#交叉分析print(data3.pivot_table(values=['價格'],index=['出發(fā)地'],columns=['目的地'],aggfunc=[np.size,np.mean]))相關(guān)分析#相關(guān)分析print(data3['價格'].corr(data3['星級']))思政點(diǎn):理解事物的聯(lián)系是普遍聯(lián)系的,引導(dǎo)學(xué)生用類比法進(jìn)行知識遷移。分布分析#以成都為出發(fā)地的旅行線路價格分布分析bins=[0,500,1000,2000,3000,4000,5000,6000,7000]dataCD=data3[data3.出發(fā)地=='成都']print(pd.cut(dataCD.價格,bins).value_counts())#酒店星級分布分析bins1=[0.0,1.0,2.0,3.0,3.5,4.0,4.3,4.5,4.8,5.0]print(pd.cut(data3.星級,bins1).value_counts())旅行線路價格分布可視化pd.cut(dataCD.價格,bins).value_counts().plot.bar(rot=20)plt.title('以成都為出發(fā)地的旅行線路價格分布分析')plt.show()思政點(diǎn):從分析到可視化--堅持到底,積極向上,追求真理。酒店星級分布可視化#酒店星級分布分析bins1=[0.0,3.0,3.5,4.0,4.3,4.5,4.8,5.0]star=pd.cut(data3.星級,bins1).value_counts().to_dict()starData=list(star.values())starLabel=list(star.keys())plt.pie(starData,labels=starLabel,autopct='%3.1f%%',pctdistance=0.75)plt.show()思政點(diǎn):可視化要按照相應(yīng)圖表來準(zhǔn)備數(shù)據(jù),如需調(diào)整數(shù)據(jù)類型則需要調(diào)整后再運(yùn)用相應(yīng)的圖表可視化。在上課學(xué)習(xí)、日常生活
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年家庭農(nóng)場承包合同
- 基于手勢識別的自然交互界面探索-洞察闡釋
- 能源采購居間服務(wù)協(xié)議范本
- 綠色建筑示范場開發(fā)與推廣合作協(xié)議
- 柴油運(yùn)輸環(huán)保風(fēng)險評估合同
- 2025合作合同范本母公司與發(fā)展公司合作協(xié)議模板
- 2020年江蘇公務(wù)員考試申論真題及答案(C類)
- 系統(tǒng)功能測試計劃
- 量子化學(xué)測試題目及答案
- 新證券法考試題及答案
- 成人手術(shù)后疼痛評估與護(hù)理團(tuán)體標(biāo)準(zhǔn)
- UL1034標(biāo)準(zhǔn)中文版-2020電子防盜鎖UL標(biāo)準(zhǔn)中文版
- 網(wǎng)絡(luò)直播平臺化妝師合作協(xié)議
- 高等數(shù)學(xué)基礎(chǔ)-007-國開機(jī)考復(fù)習(xí)資料
- 四川省英語高考試題及解答參考(2025年)
- 《傳染病防治法》課件
- 中南運(yùn)控課設(shè)-四輥可逆冷軋機(jī)的卷取機(jī)直流調(diào)速系統(tǒng)設(shè)計
- 呼吸系統(tǒng)測試題(含參考答案)
- 歐洲文明概論學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 民兵知識小常識
- 山西省大同市平城區(qū)2023-2024學(xué)年六年級下學(xué)期期末考試英語試卷
評論
0/150
提交評論