Python數(shù)據(jù)分析基礎(chǔ)教程(微課版)(第2版)課件 第10章電影數(shù)據(jù)分析項目_第1頁
Python數(shù)據(jù)分析基礎(chǔ)教程(微課版)(第2版)課件 第10章電影數(shù)據(jù)分析項目_第2頁
Python數(shù)據(jù)分析基礎(chǔ)教程(微課版)(第2版)課件 第10章電影數(shù)據(jù)分析項目_第3頁
Python數(shù)據(jù)分析基礎(chǔ)教程(微課版)(第2版)課件 第10章電影數(shù)據(jù)分析項目_第4頁
Python數(shù)據(jù)分析基礎(chǔ)教程(微課版)(第2版)課件 第10章電影數(shù)據(jù)分析項目_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

Python數(shù)據(jù)分析基礎(chǔ)教程(第2版)

第10章電影數(shù)據(jù)分析項目學習目標

了解電影數(shù)據(jù)分析項目。

熟悉電影數(shù)據(jù)分析流程。

掌握數(shù)據(jù)預處理方法。

掌握數(shù)據(jù)分析方法。

掌握數(shù)據(jù)可視化方法123項目描述

數(shù)據(jù)準備數(shù)據(jù)清洗數(shù)據(jù)分析與數(shù)據(jù)可視化4目錄CONTEN5本章小結(jié)

IMDB(InternetMovieDatabase)是目前全球互聯(lián)網(wǎng)中較大的一個電影資料庫,在該電影資料庫中有豐富的電影作品信息,包括影片演員、導演、電影題材、片長、劇情關(guān)鍵字、分級、評分等關(guān)于影片的基本信息,其中使用最多的就是IMDB的評分。

IMDB創(chuàng)建于1990年10月17日,從1998年開始成為亞馬遜公司旗下網(wǎng)站。IMDB正式啟動于1993年,是互聯(lián)網(wǎng)上第一個完全以電影為內(nèi)容的網(wǎng)站。與之相似的國內(nèi)網(wǎng)站有豆瓣網(wǎng)站。

在電影數(shù)據(jù)分析項目中,選擇的數(shù)據(jù)集是從IMDB網(wǎng)站上抓取的從1916年至2016年這100年間出品的5043部電影數(shù)據(jù),該數(shù)據(jù)集稱為IMDB5000部電影數(shù)據(jù)集,文件名為movie_metadata.csv,它也是電影數(shù)據(jù)分析項目中常用的經(jīng)典數(shù)據(jù)集。在該數(shù)據(jù)集中包含28個屬性、4906張海報,電影時間跨度超過100年,共有65個國家及地區(qū)的影片,并包括2399位導演和數(shù)千位演員的信息。近些年中國國產(chǎn)電影取得了輝煌的成就,根據(jù)2025年3月19日,貓眼專業(yè)版數(shù)據(jù)顯示,《哪吒之魔童鬧海》(《哪吒2》)全球票房(含預售及海外)已突破150億元,躋身全球電影票房榜前5。MDB5000部電影數(shù)據(jù)集的屬性信息如表10-1所示。10.1項目描述

要求根據(jù)IMDB5000部電影數(shù)據(jù)集進行下列數(shù)據(jù)分析。(1)電影出品國及地區(qū)的情況分析。(2)電影數(shù)量的分析。(3)電影類型的分析。(4)電影票房統(tǒng)計及電影票房相關(guān)因素的分析。(5)電影評分統(tǒng)計及電影評分相關(guān)因素的分析。10.1項目描述

在數(shù)據(jù)準備中,主要的任務(wù)是導入“movie_metadata.csv”文件,其程序代碼如下。In[1]:importpandasaspdimportmatplotlib.pyplotaspltIn[2]:#加載數(shù)據(jù)

movies_df=pd.read_csv('d:/data/movie_metadata.csv',encoding="GBK")In[3]:movies_df.head()#輸出默認頭5行In[4]:movies_()#輸出movies_df的信息

movies_df.describe()#輸出movies_df的基本統(tǒng)計量和分位數(shù)等值10.2準備數(shù)據(jù)

在電影數(shù)據(jù)分析項目中,數(shù)據(jù)清洗的主要任務(wù)是對原始數(shù)據(jù)集進行缺失值和重復數(shù)據(jù)的處理。其步驟如下:

1.統(tǒng)計每列的缺失值個數(shù)

2.刪除任何含有缺失值的行

3.刪除重復數(shù)據(jù)

4.查看數(shù)據(jù)清洗后的信息

5.輸出movies_df_new的基本統(tǒng)計量和分位數(shù)等值10.3數(shù)據(jù)清洗

在電影數(shù)據(jù)分析項目中,數(shù)據(jù)分析與數(shù)據(jù)可視化的主要內(nèi)容如下:

1、電影出品國及地區(qū)的情況分析

(1)統(tǒng)計每個國家或地區(qū)出品的電影數(shù)量

(2)顯示電影出品數(shù)量排名前10的國家或地區(qū)

(3)繪制電影出品數(shù)量排名前10的柱形圖(見圖10-1)

2、電影數(shù)量的分析

(1)按年份統(tǒng)計每年的電影數(shù)量

(2)繪制每年的電影數(shù)量圖形(見圖10-2)

(3)按年份統(tǒng)計每年的電影總數(shù)量、彩色影片數(shù)量和黑白影片數(shù)量,并繪制每年電影總數(shù)量、彩色影片數(shù)量和黑白影片數(shù)量圖形(見圖10-3)10.4數(shù)據(jù)分析與數(shù)據(jù)可視化

在電影數(shù)據(jù)分析項目中,數(shù)據(jù)分析與數(shù)據(jù)可視化的主要內(nèi)容如下:

3、電影類型的分析

(1)計算不同類型的電影數(shù)量。

(2)繪制不同類型的電影數(shù)量圖形(見圖10-4)

(3)繪制各個電影類型的餅圖(見圖10-5)

4、電影票房統(tǒng)計及電影票房相關(guān)因素的分析

(1)每年票房統(tǒng)計

(2)繪制每年票房統(tǒng)計圖(見圖10-6)

(3)查看票房收入排名前20位的電影片名和類型

(4)繪制電影評分與票房的關(guān)系的散點(見圖10-7)

(5)繪制電影時長與票房的關(guān)系散點圖(見10-8)10.4數(shù)據(jù)分析與數(shù)據(jù)可視化

在電影數(shù)據(jù)分析項目中,數(shù)據(jù)分析與數(shù)據(jù)可視化的主要內(nèi)容如下:

5、電影評分統(tǒng)計及電影評分相關(guān)因素的分析

(1)顯示在IMDB網(wǎng)站上評分排名前20名電影的片名和評分

(2)繪制評分與受歡迎程度的關(guān)系散點圖(見10-9)

6、分析總結(jié)

(1)電影高產(chǎn)國家或地區(qū)

(2)電影產(chǎn)業(yè)的高速發(fā)展年代

(3)電影票房收入高速增長時代

(4)票房收入排名

10.4數(shù)據(jù)分析與數(shù)據(jù)可視化

在電影數(shù)據(jù)分析項目中,數(shù)據(jù)分析與數(shù)據(jù)可視化的主要內(nèi)容如下:6、分析總結(jié)

(5)評分排名

(6)評分與受歡迎程度之間的相關(guān)性

(7)電影時長與票房的關(guān)系

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論