2021高職 大數據技術與應用 任務書10(賽項賽題)_第1頁
2021高職 大數據技術與應用 任務書10(賽項賽題)_第2頁
2021高職 大數據技術與應用 任務書10(賽項賽題)_第3頁
2021高職 大數據技術與應用 任務書10(賽項賽題)_第4頁
2021高職 大數據技術與應用 任務書10(賽項賽題)_第5頁
已閱讀5頁,還剩25頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2021年全國職業院校技能大賽

高職組

“大數據技術與應用”

賽項賽卷(GZ-xxxxxxx-X卷)

參賽隊編號:

背景描述

企業消費服務平臺,為大中小型企業提供基于云化的消費場景一

站式智能消費、智能管控,幫助企業獲得更高效、簡單、美好的消費

管理。從''費控+支付”出發,到覆蓋全場景支出的創新模式,讓員工

在數字化平臺上直接完成所有消費,從員工下單、到財務入賬,全流

程實現自動化統一結算、統一數據分析。解決傳統差旅系統面臨的場

景覆蓋不全、員工體驗差、消費體驗割裂等情況,真正做成一套讓企

業節省支出,讓員工滿意的差旅平臺。

企業消費服務平臺的出現將原來傳統的差旅行程放到網絡平臺上,

更廣泛的傳遞差旅信息,互動式的交流更方便客人的咨詢和訂購,越

來越多的人在出行的時候使用企業消費服務平臺預訂機票、火車票、

住宿等,使得更多的商家愿意與企業消費服務平臺建立合作,提升住

宿場所的營業額,這也為企業消費服務平臺的發展帶來新的機遇,為

了抓住這個機會,“企業消費服務平臺”需要從地域、訂單來源等多

種維度進行分析,明確未來重點拓展合作商家的方向。公司要求多個

小組進行分析,并提出相應建議,你所在的小組也在其中,需要通過

數據采集、數據清洗、數據分析和數據可視化獲得相關論據,提出未

來重點拓展合作住宿場所的方向。

你們作為該小組的技術人員,是這次技術方案的核心成員,請按

照下面步驟完成本次技術展示任務,并提交分析報告,祝你們成功!!!

模塊A:Hadoop平臺及組件的部署管理(15分)

環境要求:

編號主機名類型用戶密碼

1master主節點rootpasswd

2slavel從節點rootpasswd

3slave2從節點rootpasswd

masterOl-1主機上MySQL數據庫用戶名密碼是root/Passwordl23$

相關軟件安裝包在/chinaskills目錄下

任務一:Hadoop偽分布部署

本環節需要使用root用戶完成相關配置,安裝Hadoop需要配置

前置環境,具體部署要求如下:

1、解壓JDK安裝包到“/usr/local/src”路徑,并配置環境變量,

將命令(使用絕對路徑)及環境變量內容復制粘貼至對應報告

中;

2、環境中已創建ssh密鑰,實現主節點與從節點的無密碼登錄;截

取主節點登錄其中一個從節點的結果,將命令和結果復制粘貼至

對應報告中;

3、根據要求修改每臺主機host文件,將hosts配置文件內容復制

粘貼至對應報告中;

4、在主節點修改Hadoop環境變量,并將(/etc/profile)配置文

件內容復制粘貼至對應報告中;

5、根據要求修改Hadoop相關文件(hadoop-env.sh、core-

site.xmlHDFS-site.xml>mapred-site.xml,yarn-

site.xml),初始化Hadoop,并將初始化結果內容復制粘貼至對

應報告中;

6、啟動Hadoop,使用相關命令查看所有節點Hadoop進程,并將結

果內容復制粘貼至對應報告中。

任務二:Hive組件部署

本環節需要使用root用戶完成相關配置,已安裝Hadoop及需要

配置前置環境,具體部署要求如下:

1、解壓Hive安裝包到“/usr/local/src”路徑,并使用相關命

令,修改解壓后文件夾名為Hive,進入Hive文件夾,并將查看

內容復制粘貼至對應報告中;

2、配置Hive環境變量,并使環境變量只對當前用戶生效,將環境

變量內容復制粘貼至對應報告中;

3、新建并配置hive-site,xml文件,實現"Hive元存儲”的存儲

位置為MySQL數據庫,并將hive-site,xml配置文件內容復制粘

貼至對應報告中;

4、初始化Hive元數據(將MySQL數據庫JDBC驅動拷貝到Hive安

裝目錄的lib下),并將初始化結果內容復制粘貼至對應報告

中;

5、啟動Hive,檢查是否安裝成功,并將結果內容復制粘貼至對應

報告中。

任務三、Kafka組件部署

本環節需要使用root用戶完成相關配置,已安裝Hadoop及需要

配置前置環境,具體部署要求如下:

1、將Zookeeper配置完畢后,在各節點啟動Zookeeper,查看

Zookeeper狀態,并將命令和Zookeeper運行狀態結果復制粘貼

至對應報告中;

2、修改Kafkaserver.properties文件,并將修改的內容復制粘貼

至對應報告中;

3、啟動Kafka,并將Kafka啟動命令和輸出結果前10行復制粘貼

至報告中。

模塊B:數據采集與處理(20分)

1、網站解析,利用Chrome查看網頁源碼,分析企業消費平臺網站

網頁結構。

1)打開企業消費平臺網站,在網頁中右鍵點擊檢查,或者F12

快捷鍵,查看元素頁面;

2)檢查網站:瀏覽網站源碼查看所需內容。

2、從企業消費平臺網站中爬取需要數據,按照要求使用Python語

言編寫爬蟲代碼,爬取指定數據項,并對結果數據集進行數據探

索、以及必要的數據處理操作。請將符合題目要求的代碼答案復

制粘貼至對應報告中。

具體步驟如下:

1)創建爬蟲項目

2)構建爬蟲請求

3)按要求定義相關字段

4)獲取有效數據

5)將爬取到的數據保存到指定位置

至此已從住宿場所網站中爬取了所需數據,下一步我們要將爬取

結果進一步進行相關數據操作。

詳細數據描述:

1)請創建Scrapy項目chinaskills_accommodation(C:\

chinaskills_accommodation),從網站(網站地址在競賽平

臺模塊B中給出)中爬取頁面相關字段(包括name,seq,

業務部門,拒單率是否小于等于直銷城市均值、,是否為客

棧,房間價格,用戶點評數,省份,酒店實住訂單,酒店實

住間夜);將抓取結果保存為json格式文件,并命名為

accommodations.jsono每條信息請以Key:Value格式單獨

保存為一行數據。

例如:

{I“nsaeme":“*義*立*士",”scecqc":“*義*立*業”,...........}1

任務中要求將“以下內容及答案完整復制粘貼至對應報告中。”,

粘貼到對應報告中的內容舉例如下:

“中國”網頁源碼對應字段為:Country

“四川”網頁源碼對應字段為:Province

2)爬取數據量不少于28萬條。

具體任務要求:

任務一:網頁源碼應字段

使用Chrome瀏覽器,查找網站異步請求的數據,并將以下內容及

答案完整復制粘貼至對應報告中。

“城市平均實住間夜”網頁源碼對應字段為:

“房間數”網頁源碼對應字段為:

“城市直銷拒單率”網頁源碼對應字段為:

“處于商圈”網頁源碼對應字段為:

任務二、自行創建Scrapy工程

自行創建Scrapy工程編寫爬蟲代碼,爬取“name、seq、業務部

門有效數據項包括:業務部門,房間數,國家,圖片數,城市,城市平均

實住間夜,城市直銷拒單率,處于商圈”頁面相關數據,通過爬蟲代碼

分頁爬取,以合理的程序邏輯判斷相關數據包含的頁數并將程序代碼

復制粘貼至對應報告中。

任務三:在MySQL中創建數據庫表

根據爬取字段,在MySQL中創建crawl數據庫,在該數據庫中創

建accommodations1表(包含name,seq,業務部門,拒單率是否小于

等于直銷城市均值,是否為客棧,房間價格),創建accommodations2

表(包含name,seq,業務部門,用戶點評數,省份,酒店實住訂單,

酒店實住間夜),將爬取數據寫入相應數據表中,并分別統計

accommodations!表和accommodations2表的總行數,將統計結果復

制粘貼至對應報告中。

任務四:對數據庫表排序

爬蟲程序運行結束后查看MySQL數據庫accommodations1表,按

seq倒序排序,返回前100行數據,將命令與查看結果復制粘貼至對

應報告中。

任務五:對數據表填充處理

請根據步驟3中accommodations!表中的數據,對數據集中“房

間價格”字段的缺失值,使用平均值進行填充。查看填充后的數據集

前5條記錄,將查看結果復制粘貼至對應報告中。

任務六:對數據表刪除處理

請根據步驟3中accommodations2表中的數據,對數據集中存在

空值的記錄進行刪除。查看刪除后的數據集條數,將查看結果復制粘

貼至對應報告中。

accommodations2表刪除后條數為:

模塊C:數據清洗與挖掘分析(25分)

現已從相關網站及平臺獲取到原始數據集,為保障用戶隱私和行

業敏感信息,已進行數據脫敏。數據脫敏是指對某些敏感信息通過

脫敏規則進行數據的變形,實現敏感隱私數據的可靠保護。在涉及

客戶安全數據或者一些商業性敏感數據的情況、不違反系統規則條

件下,對真實數據進行改造并提供測試使用,如身份證號、手機號

等個人信息都需要進行數據脫敏。

相關數據文件中已經包含了數據采集階段從企業消費平臺網站上

爬取的數據集,其中包含了來自不同城市的多家住宿場所的銷售信

息,你的小組需要通過編寫代碼或腳本完成對相關數據文件中住宿

場所銷售管理數據的清洗和整理,并完成數據計算和分析任務。綜

合利用MapReduce、Spark>Storm>分布式存儲系統、數據倉庫

Hive、數據推送工具等技術,使用Java、Python、Scala等開發語

言,完成本階段數據清洗、處理、分析及數據挖掘等任務。通過多

個維度分析住宿場所的銷售信息,并以此評價住宿場所銷售業績、

區域的游客接納能力、接納質量等指標。

初始數據集來自多個網站及平臺系統,且為多次采集匯總結果,

因此數據集中不可避免地存在一些臟數據,即源數據不在給定的范

圍內或對于實際業務毫無意義,或是數據格式非法,以及在源系統

中存在不規范的編碼和含糊的業務邏輯。

請分析相關數據集,根據題目規定要求實現數據清洗及分析。

任務一、數據清洗

住宿場所銷售數據涉及到多個平臺及數據庫對接,個別信息由于

人為操作失誤或計算機故障等原因產生了數據缺失值。缺失值是一

種常見的臟數據情況,由于粗糙數據中缺少信息而造成的數據缺失

或截斷。現有數據集中某個或某些屬性的值是不完全的。對于缺失

值的處理,從總體上來說分為缺失值刪除和缺失值插補。當缺失值

過多時,信息條目本身的價值也會隨之降低,此時如果對缺失值進

行填補則將產生結果的人為干預。結合行業數據本身特點及上述考

慮,請你根據題目具體參數要求實現以下功能:將缺失值大于n個

的數據條目從原始數據集中剔除,并輸出剔除的條目數量。

詳細描述:

數據源文件存放于/chinaskills/accommodationdata.csv,請編

寫MapReduce程序,按照如下要求實現對數據的清洗,并將結果輸出

至HDFS文件系統中/accommodation_outputl:

1)解析該文件;

2)按照題目要求剔除缺失數據信息(n=3),并以打印語句輸出

刪除條目數;

3)程序打包并在Hadoop平臺運行,結果輸出至HDFS文件系統

中/accommodation_outputlo

具體任務要求:

1、將accommodationdata.csv文件上傳至HDFS新建目錄/file3_l

中;運行代碼,刪除數據源中缺失值大于3個字段的數據記錄,

打印輸出刪除條目數,將運行結果復制粘貼至對應報告中;

2、查看清洗后輸出的結果文件總行數(/accommodation_outputl),

將運行結果復制粘貼至對應報告中。

對于數據集字段缺失情況,通常可以采用填充默認值、均值、

眾數、KNN填充、以及把缺失值作為新的label等方式處理。同

時,不當的填充可能會令后續的分析結果出現導向性偏差,當缺失

信息較少時可采用刪除的方式來進行處理。下面請根據題目具體參

數要求處理關鍵字段缺失,復制粘貼至對應報告中結果。

詳細描述:

數據源使用HDFS文件系統中的accommodationdata,csv,請編寫

MapReduce程序,按照如下要求實現對數據的清洗,并將結果輸出至

HDFS文件系統中/accommodation_output2:

1)解析該文件;

2)將任意關鍵字段為空的條目剔除,關鍵字段定義為{星級、評

論數、評分},并以打印語句輸出刪除條目數;

3)程序打包并在Hadoop平臺運行,結果輸出至HDFS文件系統

中/accommodation_output2。

具體任務要求:

3、運行代碼,將字段{星級、評論數、評分}中任意字段為空的數據

刪除,并打印輸出刪除條目數,將運行結果復制粘貼至對應報告

中;

4、查看清洗后輸出的結果文件(accommodation_output2)總行數,

將運行結果復制粘貼至對應報告中。

任務二、數據挖掘分析

城市游客接納能力是城市規劃建設中的重要指標,其中城市的

住宿場所數量和房間數量是城市游客接納能力的關鍵要素。請編寫

程序或腳本根據住宿場所管理網站中的數據統計各城市的相關信

息,并寫入指定的數據庫或數據文件。

詳細描述:

請根據數據清洗的輸出數據集,編寫HQL語句統計各城市的酒店

出租率,以各城市酒店出租率降序排列并輸出前10條統計結果,同

時創建并寫入數據表a_4。要求輸出字段包含:省份、城市、酒店

出租率。

數據定義如下:

數據項字段名備注

省份province

城市city

酒店出租率lease要求保留6位小數

數據樣式如下:

provincecitylease

貴州貴陽0.123456

具體任務要求:

1、創建表table3_4

2、統計各城市酒店出租率,將出租率前10的數據降序排列并寫入

數據表table3_4中,將命令復制粘貼至對應報告中。

企業消費平臺是酒店營銷的主要途徑之一,不僅降低銷售成

本,同時也提高了顧客體驗滿意度。當顧客通過企業消費平臺進行

酒店預訂時,酒店就擁有了用戶的相關數據。通過這些數據,能夠

更好地收集用戶需求,從而可以提供更有針對性和個性化的服務,

最終能夠產生更多的忠誠會員并帶來更多訂單。但企業消費平臺銷

售也存在用戶拒單等情況,拒單原因有很多:例如,平臺信息不同

步,信息更新不及時;分銷層次過多,導致無法及時查證訂單;酒

店違反企業消費規則擅自以低價讓客戶取消訂單,這種情況又叫做

“切單企業消費平臺需要統計用戶訂單的分布情況,以此發現平

臺缺陷及用戶、商家的行為模式,企業消費平臺據此調整營銷策

略。根據現有數據及給定參數完成訂單數據統計,并寫入指定的數

據庫或數據文件,復制粘貼至對應報告中結果。

詳細描述:

1)請根據數據清洗的輸出數據集,編寫HQL語句統計各省直銷

拒單率,以直銷拒單率升序排列并輸出前10條統計結果,同

時創建并寫入數據表table3_5。要求輸出字段包含:省份、

直銷拒單率。

數據定義如下:

數據項字段名備注

省份province

直銷拒單率norate要求保留6位小數

數據樣式如下:

provincenorate

貴州0.123456

具體任務要求:

3、創建表table3_5,將命令復制粘貼至對應報告中;

4、統計各省拒單率,將統計的拒單率升序排列并將前10條統計結

果寫入數據表table3_5中,將命令復制粘貼至對應報告中。

模塊D:數據可視化(20分)

MySQL數據庫中的相關數據集包含了城市、省份、評分、評論數

等多項基礎信息字段。請使用Flask框架,結合Echarts完成下列

題目。

數據庫賬號:takeout密碼:takeout

自行創建代碼工程路徑為:C:\chinaskills_hotel

每個可視化圖中需要添加圖片作為背景水印。

任務一:柱狀圖呈現城市出租率

出租率是反映住宿場所經營狀況的一項重要指標,它是已出租的

客房數與住宿場所可以提供租用的房間總數的百分比。住宿場所出

租率的情況可以在一定程度上反應出該住宿場所的整體運營的情

況,為了更好的分析指定住宿場所的入住情況,請根據相關表中數

據完成出租率分析,通過指定圖例進行呈現。

詳細描述:

請以數據庫相關表作格為數據源,以柱狀圖呈現城市出租率。

具體任務要求:

1)提取表格相關字段,在控制臺按照“各省住宿場所出租率”降

序排列,打印輸出各省名稱及包含的住宿場所數量;

打印語句格式如下:

==1.***省=住宿場所數為***個=出租率為:***===

==2.***省=住宿場所數為***個=出租率為:***===

2)使用Flask框架,結合Echarts繪制柱狀圖。主標題為“各省

住宿場所出租率”(字體要求:紅色、加粗、斜體),副標題為

出租率前十的省份;縱坐標為出租率,橫坐標為省份名稱(按

照出租率降序排列);將可視化結果復制粘貼至對應報告中。

任務二:折線圖呈現連鎖住宿場所出租率

連鎖住宿場所一般都具有全國統一的品牌形象識別系統、全國統

一的會員體系和營銷體系、價格相比較很有優勢,更適合大眾化消

費。連鎖住宿場所無論在裝修、服務還是信譽上都有較大的競爭優

勢,所以連鎖住宿場所是出差、旅游住宿的首選。但是由于三線城

市會員流動差、高素質管理人員相對短缺、營銷環境與消費特點存

在差異等問題,一些已經成熟住宿場所管理模式在三線城市可能并

不受用,甚至會出現水土不服的現象。請根據現有數據及給定參

數,統計指定連鎖住宿場所的經營狀況,并以指定圖例進行呈現。

詳細描述:

1)數據庫中相關表格已保存了指定地區的某連鎖住宿場所銷售

信息。請根據地區劃分,統計題中某連鎖住宿場所的出租率(保

留6位小數),并以折線圖呈現;

2)要求統計以下指定地區住宿場所相關信息,指定地區包括:東

北、華北、華東、華中、西北、西南、華南;

3)指定地區省份映射表,如表1。

表1:地區省份映射表

地區省份

華東地區山東、江蘇、安徽、浙江、江西、福建、上海

華南地區廣東、廣西、海南

華中地區湖北、湖南、河南

華北地區北京、天津、河北、山西、內蒙古

西北地區寧夏、新疆、青海、陜西、甘肅

西南地區四川、云南、貴州、西藏、重慶

東北地區遼寧、吉林、黑龍江

具體任務要求:

1)根據表格相關字段分別統計某連鎖住宿場所在各地區的出租

率(保留6位小數),在控制臺按照“出租率”降序排列,打

印輸出各地區名稱以及出租率;

打印語句格式如下:

==1.***地區,出租率為***===

==2.***地區,出租率為***===

2)使用Flask框架,結合Echarts繪制折線圖,主標題為“指定

地區的住宿場所出租率“(字體要求:紅色、加粗、斜體),副

標題為“某連鎖住宿場所的出租率”,縱坐標為出租率,橫坐

標為地區;輸出折線圖,將可視化結果復制粘貼至對應報告中。

任務三:散點地圖呈現各城市住宿場所間夜數

住宿場所的間夜量也叫間夜數,是住宿場所在某個時間段內,房

間出租率的計算單位,關于住宿場所間夜量的計算公式為間夜量=入

住房間數*入住天數。例如某住宿場所今天入住的房間數為500,則

今天的間夜量=500*1=500,而又比如某住宿場所這個月(30天)的

平均每天入住房間數為400,則這個月的間夜量=400*1*30=12000。

請根據指定表中數據統計住宿場所間夜數相關數據,并以指定圖例

進行呈現。

詳細描述:

請以數據庫相關表格中相關表作為數據源,各城市住宿場所間夜

數散點地圖。

具體任務要求:

1)根據表格相關字段分別統計各城市住宿場所間夜數,打印輸出

各城市的間夜數,在控制臺按照“間夜數”降序排列,打印輸

出各地區名稱以及間夜數;

打印語句格式如下:

二二***市:間夜數為***二二二

二二***市:間夜數為***二二二

2)使用Flask框架,結合Echarts繪制散點地圖,標題為“各城

市住宿場所間夜數”(字體要求:紅色、加粗、斜體);輸出各

城市住宿場所間夜數散點地圖,將可視化結果復制粘貼至對應

報告中。

任務四:堆疊柱狀圖呈現直銷和分銷直銷和分銷

訂單數據是考量企業消費平臺直銷住宿場所經營業績的重要指

標,由于某些酒店資源無法內部消化,也會出現訂單分銷至其它企

業消費平臺的情況,此時稱為分銷。一般情況下,直銷和分銷是同

時存在的。但當某些住宿場所或區域分銷數量過多時,則表明企業

消賽平臺經營推廣能力不足。請根據指定表中數據,以指定圖例進

行呈現。

詳細描述:

根據相關負責人反饋,以下住宿場所的分銷數量占比較大:山水

時尚酒店北京梨園店,北京大寶飯店,北京普樂門白領公寓798精

品店,北京長得福賓館,北京中聯鑫華酒店西客站店,北京瑞祥居

賓館,北京花神假日酒店。請使用數據庫中相關數據,以堆疊柱狀

圖呈現直銷和分銷,并輔以分銷比率折線說明平臺應對哪些酒店加

強維護及推廣力度。

具體任務要求:

1)根據表格相關字段分別統計以上各家酒店的直銷訂單數量、分

銷訂單數量以及分銷比例,在控制臺按照“分銷比例”升序排

列,打印輸出各地區名稱以及間夜數;

打印語句格式如下:

=="酒店名稱:***直銷訂單數:***分銷訂單數:***分銷比

例:***“==

2)使用Flask框架,結合Echarts繪制堆疊柱狀圖,并輔以分銷

比率折線,標題為“酒店直銷,分銷訂單及比率”(字體要求:

紅色、加粗、斜體);橫坐標為酒店名稱,縱坐標為銷售數量和

分銷比例,將可視化結果截圖并保存。

任務五:使用sklearn庫中方法構建線性回歸模型

企業消費平臺為了能在更多省份擴展業務,與更多酒店建立合作

關系,為了贏得更多酒店的合作,在合作談判過程中會通過同區

域、同等級銷售情況對比,需要提供同類酒店相關經營數據。請根

據指定表中數據,以指定圖例進行呈現。企業消費平臺希望與住宿

場所A進行線上銷售合作,需要制作一份銷售預測報告來說明酒店

將在平臺收獲的間夜預期。住宿場所A信息{廣東省、廣州市、北京

路商圈、非客棧,評論數100,房間數200}

詳細描述:

請以根據表格相關字段:是否客棧、評論數、房間數為特征變量,

構建線性回歸模型,給出明年同期住宿場所A在本平臺總間夜數的預

期值。輸出預測模型相關指標,同時給出預期結果。

具體任務要求:

1)請使用sklearn庫中方法構建線性回歸模型,并在控制臺輸出

住宿場所A總間夜的預測值;

打印語句格式如下:

=="住宿場所A明年同期總間夜數預期值為:***"===

2)使用Flask框架,結合Echarts繪制散點線性回歸圖,標題

為“住宿場所A總間夜數預測”(字體要求:紅色、加粗、斜

體),橫坐標為時間,縱坐標為總間夜數,將可視化結果截圖

并保存。

任務六:多線雷達圖呈現各省份住宿場所綜合情況

企業消費平臺需要綜合評判一個城市住宿場所運營情況,會涉及

到多方面住宿場所數據,例如像高端住宿場所數量、訂單數量、住

客評分、評論數量、出租率、200元/晚以下快捷住宿場所數量等信

息,請根據指定表中數據統計相關數據,并以指定圖例進行呈現。

詳細描述:

請根據數據庫中相關表格,統計各城市住宿場所綜合運營情況,

并以多線雷達圖表達。

具體任務要求:

1)根據數據庫中相關表格分別統計北京、上海、廣東、四川、海

南各地四星/五星住宿場所的數量、平均評分、評論數、各省

住宿場所出租率、直銷拒單率,在控制臺按照“省份”名稱升

序排列,打印輸出各城市住宿場所的多項運營指標;

打印語句格式如下:

==省市:A,四星/五星住宿場所數量為:***===

==省市:A,平均評分為:***===

==省市:B,四星/五星住宿場所數量為:***===

==省市:B,平均評分為:***===

2)使用Flask框架,結合Echarts繪制多線雷達圖,標題為各省

份住宿場所綜合情況(字體要求:紅色、加粗、斜體);輸出多

線雷達圖,將可視化結果復制粘貼至對應報告中。

模塊E:綜合分析(20分)

假定你為企業消費平臺的管理者,在綜合理解住宿場所業務數據

的基礎上,通過以上模塊A、B、C、D的相關結論,對未來拓展合作

住宿場所方向做出預測,根據題目要求進行分析,并編寫輸出分析

報告。

根據上述任務中的結論,分析以下內容,并編寫分析報告。從住

宿場所分布維度,結合多省份住宿場所綜合運營情況,對企業消費

平臺未來拓展合作住宿場所的方向提出建議。

分析報告要求:

任務一:通過數據及圖示分析原因

結合平臺相關數據文件,以各省住宿場所出租率和各城市住宿場

所間夜數的折線圖,對各省住宿場所的運營情況進行分析,分別以文

字描述和圖例進行說明;

任務二:對通過圖示和計算業務分析原因

結合模塊D可視化分析對某連鎖酒店在不同地區的酒店出租率的

統計,說明影響酒店出租率的原因可能有哪些?對于提高該連鎖酒店

的出租率,您有哪些建議?分別以文字描述和圖例進行說明;

任務三:對企業消費平臺未來拓展合作建議和意見

對企業消費平臺未來拓展合作住宿場所的方向提出建議(不少于

3條建議);

附錄:補充說明

一、json數據格式樣例

{"name":"南京國美家庭旅社公寓南林店","detail":{"SEQ":

"nanjing」O16","國家":"中國","省份":"江蘇","城市":"南京","處

于商圈":"鎖金村地區玄武湖地區中山陵景區","是否為客棧":0,"住宿場

所星級":"二星及其他","業務部門":"低星","剩余房間":8,"圖片數":0,

"住宿場所評分":"1","用戶點評數":1,"城市平均實住間夜":

"51.701686747","住宿場所總訂單":0,"住宿場所總間夜":0,"住宿場所實

住訂單":0,"住宿場所實住間夜":0,"住宿場所直銷訂單":0,"住宿場所直

銷間夜":0,"住宿場所直銷實住訂單":0,"住宿場所直銷實住間夜":0,"住宿

場所直銷拒單":0,"住宿場所直銷拒單率":null,"城市直銷拒單率":

"0.0282838180927","拒單率是否小于等于直銷城市均值":0,"最低房間價格":

"306"})

二、fastjson-1.2.41.jar常用API(java)

1、實例化

JSONObject();

2、JSON解析包

com.alibaba.fastjson.JSON;

com.alibaba.fastjson.JSONObject;

com.alibaba.fastjson.JSONArray;

com.alibaba.fastjson.JSONException;

3、常用API方法:

1)publicstaticfinalObjectparse(Stringtext);//把JSON文本

parse為JSONObject或者JSONArray

2)publicstaticfinalJSONObjectparseObject(Stringtext);//

把JSON文本parse成JSONObject

3)publicstaticfinalTparseObject(Stringtext,Classclazz);

//把JSON文本parse為JavaBean

4)publicstaticfinalJSONArrayparseArray(Stringtext);//把

JSON文本parse成JSONArray

5)publicstaticfinalListparseArray(Stringtext,Classclazz);

〃把JSON文本parse成JavaBean集合

6)publicstaticfinalStringtoJSONString(Objectobject);//將

JavaBean序列化為JSON文本

7)publicstaticfinalStringtoJSONString(Objectobject,boolean

prettyFormat);//將JavaBean序列化為帶格式的JSON文本

8)publicstaticfinalObjecttoJSON(ObjectjavaObject);將

JavaBean轉換為JSONObject或者JSONArrayo

三、fastjsonT.2.41.jar常用API[Spark(scala)l

1、json解析包

com.alibaba.fastjson.JSON

2、常用API

1)實例化:

JSON.parseObject(x)

2)默認值:如果該key沒有值默認為null:

jsonObject.getOrDefault(key,默認值)

jsonObject.getOrDefault("name",

3)獲取該key的value值

jsonObject.get(json的key)

jsonObject.get(“name”)

4)判斷key是否存在

jsonObject.containsKey(key)

5)添加kv鍵值對

jsonObject.put(key,value)

四、控制臺輸出運行日志樣例

19/060308:04:21IXFOhandlerContextHandlor:Stoppeds.ServIetContextHandler?10f<ie30aiz.null,UNAVAILABLE)

19/06/0308:01:21INFOhandlerContcxtHuiKiicr:Stoppeds.Sen*letContcxlllandlcr<33836Westatic,nuiUNAVAILABLE;

19/060308:04:21IXFOhandlerConlciilLuxilrr:Stoppeds.Serv1otCentextHand1er#533377bi?rsthreadDuop/jsan,nulI.IAAVAIIABII

197060308:0-1:21INFOhandlerContcxtHandlcr:Stoppeds.Sen,letContcxtHandlcr<J119a20u6executors11hreadDu^j,null.IXAVAlLABLEl

19/060308:04:21INFOhandlerGxitcxtlhndler:Stoppeds.ScrvletContcxtHandlcr<67389cb8executors'.ison,null.VNAVAILABLE)

⑼06,0308:01:21INFOhandierCentextflandier:Sloppeds.Scrv!ctContextlhndlcrt65aa6596executors,null,I^AVAIIABIJr

19/06/0308:04:21INFOhandlerContextHandler:Stoppeds.ScrvlctContcxUhndlcrt2c7d121c:environnent/json.null,UNAVAILABLE;

19/06.0308:04:21ISFOhandlerContext(landIer;Sloppeds.SeivIrtGMItrxillmxiIert34625ccd;,/cnvironnrnt.null.(NAVAILABIE)

19/06,0308:04:21INFOhandlerContextHiindler:Stoppeds.SenletContextliiindier#7e3f95fe-storage-rdd/json.null,UNAVAILABLE)

19,06/0308:04:21INFOhandlerContcxtHandlcr:Slurpeds.Serv1clContextHandIcr*24bdb479!/storaKc/rdd.nullUNAVAILABLE:

19/060308:04:21INFOhandlerContextlldiNller:Stoppeds.ServIetCi>ntexiH.trjdIer27b5f92;orage/jsan.null.CNAVAUJUil.E

19/06/0308:04:21INFOhandierConlextHiindlcr:Stoppeds.ServletContextlhndlcrtlddac9b5stor?Rc,null.VNAVAIUBLEf

19,060308:04:21IXFOiwndlerContextlhiKlIvr:Stoppeds.ServletC(Mitextll??ndier€42f3l56d;st8ses/p?MU/js<m,null.^AVAILABLE)

19/06/0308:04:21IMPhandlerConlexIHandIer:Stoppeds.SenletContextHiindlertld7f7be7Vstages/pool.nulI.lWA

⑼060308:04:2!INFOhandierCootexlHindIer:Sloppeds.Sen'Iet('<>nte11ILindIcr0586013d7stnges/stage,json,nulI.UNAVAILABLE)

⑼06/0308:04:21IXFOhandlerContext而ndier:Stoppeds.ServlelContextlhndler06a66a2O4st?ses/stage.null,15AVAHABLE}

19/06/0308:04:21IXFOhandlerCentextHandior:StoppedO.S.3?s.Scn,letContcxtilandlcrtllcSTbOb;/stagesjson,null.INAVAILWLE

19.Wk0308:04:21IXFOhandlerfontex(Handier:SloppedQ.&s.ServletContextHanciJcr<Me5l7l651/stages,null,INAVA1I.ABLE.)

19/06/0308:04:21IXFOhandlerCentex【Hand!er:Stoppeds.ScnIeiCa)textHiindlert2cb3d0f7:jobs,/job/json,nulI.LKAVAILABLE

19/06/0308:04:21INFOhandlerConlcxtllandlcr:Sloppeds.Sen11etContcxlIlandlcrt2c10177-1'/jobs/job,null,I'NAVAll^BU:

19/06/0308:04:2!IXFOhandlerContextILudler:Stoppeds.ServletContextILindlcr96f0ca692,jobs/json,null,mVAIUBlf1

19/06.0308:04:21IXFOhandlerContextHandhr:s.ScrvlctContcxtHandlcrtMba534bOjobs,nuH.lNAYAILABLE}

五、方差、均方根差的定義

1、方差MSE:概率論中方差用來度量隨機變量和其數學期望(即均值)之間的

偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均

數之差的平方值的平均數。

2、均方根差RMSE:均方根誤差,是觀測值與真值偏差的平方和觀測次數n比值

的平方根。RMSE是計算觀測值與其真值,或者觀測值與其模擬值之間的偏

差。

六、間夜定義

間夜又稱間夜數,是住宿場所在某個時間段內,房間出租率的計算單位。例

如20間房入住2晚,為40間夜數。

七、出租率計算公式

出租率=當月發生的總間夜數/當月所能提供的總房間數

八、線性回歸預測數據源data_accommodation_mult.csv

字段名

SEQ、省份、城市、商圈、是否為客棧、星級、房間數、評論數、平均評分數、

城市平均間夜、住宿場所總訂單、住宿場所總間夜、住宿場所實住訂單、住宿場

所實住間夜、住宿場所直銷訂單、住宿場所直銷實住訂單、住宿場所直銷間夜、

住宿場所直銷實住間夜、城市直銷拒單、城市直銷拒單率、住宿場所企業消費平

臺實住訂單

九、數據可視化表字段說明

表radar_lines

province省份

accommodation_num住宿場所數

avg_score平均分

comment_num評論數

lease_rate出租率

direno_rate直銷率

表platformrate

accommodationname住宿場所名稱

provice省份

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論