




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
項目背景|項目概述|學習目標|任務實施步驟鳶尾花多分類分析【數據挖掘應用】01101111011010111101010000101101010100111101背景先導項目概述項目學習目標任務實施步驟01Background02BriefIntroduction03LearningObjectives04ImplementationSteps主要內容鳶尾花無生命的花朵擁有了人的性格,有了自己的思想情感,產生了所謂的“花語”“鳶尾花,結彩多,連竿勸獻酒。此花開后百花死,百花開后鳶尾稀。”“獨有鳶尾花,一時偏好妝。金鴨灣頭戲,繡戶髻后香。”在我國常用來象征友誼、愛情,代表前途無量、鵬程萬里、明察秋毫。認識鳶尾花雜色鳶尾(versicolor)
山鳶尾(setosa)
維吉尼亞鳶尾(virginica)
0110111101101011110101111001001001011010101001001111010010110010111011010110100111101
什么是花瓣、花萼鳶尾花數據集輸出結果:output花瓣長度(PetalLength)花瓣寬度(PetalWidth)花萼長度(SepalLength)花萼寬度(SepalWidth)輸入特征:input鳶尾花類別雜色鳶尾(versicolor)山鳶尾(setosa)
維吉尼亞鳶尾(virginica)項目總體要求
鳶尾花多分類分析
本項目將基于“iris.csv”文件中的4項特征數據和分類結果,使用不同的機器學習算法做鳶尾花類別判定應用,并進一步評估不同模型的優劣。項目三維目標理解K近鄰、隨機森林、多層感知機、神經網絡的基本概念及其原理;進一步掌握數據分析與挖掘的流程,加深對模型建立與分析過程的理解;掌握NumPy、Pandas、sklearn、Matplotlib、TensorFlow的使用;掌握KNeighborsClassifier、RandomForestClassifier和MLPClassifier的相關參數意義及調參方法。
(阿里云大數據分析與應用中級5.3.2)知識目標能力目標素質目標證項目三維目標會使用sklearn包中KNeighborsClassifier、RandomForestClassifier和MLPClassifier類實現分類分析;
大數據工程技術人員國家職業技能標準中級6.3.2會使用Tensorflow設計和訓練簡單的神經網絡模型;會調整分類模型的參數實現分類效果的優化。
大數據工程技術人員國家職業技能標準中級6.3.3知識目標能力目標素質目標崗011011110110101111010111100100001011010101001111101崗項目三維目標厚植“中國特色”的傳統文化根脈,堅定文化自信;善于觀察,增強學生對大自然及生活的熱愛;引導學生進行精準分類,細心改進模型的參數,盡心完成模型的優化,培養精益求精的品質意識。能力目標素質目標知識目標011011110110101111010111100100001011010101001111101鳶尾花分類分析任務流程數據獲取數據預處理分類分析模型評估與應用明確目標基于給定的花萼長度、花萼寬度、花瓣長度、花瓣寬度、鳶尾花類別等數據做鳶尾花類別判定應用。數據獲取數據預處理分類分析模型評估與應用明確目標從本地文件iris.csv中讀取花萼長度、花萼寬度、花瓣長度、花瓣寬度、鳶尾花類別等原始數據。鳶尾花分類分析任務流程數據獲取數據預處理分類分析模型評估與應用明確目標1.標簽映射:需將鳶尾花的三種類別分別映射為0、1和2鳶尾花分類分析任務流程數據獲取數據預處理分類分析模型評估與應用明確目標使用K近鄰實現鳶尾花分類使用隨機森林實現鳶尾花分類使用Tensorflow設計神經網絡實現鳶尾花分類使用多層感知機實現鳶尾花分類鳶尾花分類分析任務流程數據獲取數據預處理分類分析模型評估與應用明確目標圖形化展示各模型的分類結果
評估不同算法的優劣分類模型應用鳶尾花分類分析任務流程還在等什么?馬上動手實施鳶尾花多分類分析項目吧~1.認識鳶尾花、鳶尾花數據集2.多分類項目的要求3.鳶尾花分類分析流程小結項目背景|項目概述|學習目標|任務實施步驟觀影用戶聚類分析【數據挖掘應用】01101111011010111101010000101101010100111101背景先導項目概述項目學習目標任務實施步驟01Background02BriefIntroduction03LearningObjectives04ImplementationSteps主要內容《戰國策·齊策三》:戰國時期,淳于髡向齊宣王連推了七位賢能之士:同類的鳥兒總聚在一起飛翔,同類的野獸總是聚在一起行動。人們要尋找柴胡、桔梗這類藥材,如果到水澤洼地去找,恐怕永遠也找不到;要是到梁文山的背面去找,那就可以成車地找到。這是因為天下同類的事物,總是要相聚在一起的。什么是聚類分析?用于比喻同類的東西常聚在一起,志同道合的人相聚成群,反之就分開什么是聚類分析?電子商務中的“人以群分、物以類聚”什么是聚類分析?聚類后同一類的數據盡可能聚集到一起不同類數據盡量分離沒有特定分成什么類別如何度量相同特征什么是聚類分析?聚類分析(clusteranalysis)將數據劃分成有意義的或有用的組(簇)電子商務:聚類分析在電子商務中網站建設數據挖掘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。商業:是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場。生物:用來動植物分類和對基因進行分類,獲取對種群固有結構的認識。項目總體要求
觀影用戶聚類分析
以兩部電影的影評數據為藍本,對所對應的觀影用戶進行聚類,通過用戶群的細分以實現更為合理的客戶關系維護與管理。項目三維目標理解無監督學習、聚類的基本概念了解常用的聚類方法及其適用性
(阿里云大數據分析與應用中級1.2.1)掌握sklearn包中常見聚類實現DBSCAN、KMeans的使用進一步掌握數據分析與挖掘常用包NumPy、Pandas、sklearn、Matplotlib的使用方法知識目標能力目標素質目標證項目三維目標會使用sklearn包中的DBSCAN、KMeans類實現聚類應用
(重點:阿里云大數據分析與應用中級5.2.3)會調整聚類分析模型的參數實現分類效果的優化(難點:大數據工程技術人員國家職業技能標準中級6.3.2)會使用Matplotlib、seaborn等包實現聚類效果的可視化知識目標能力目標素質目標崗證011011110110101111010111100100001011010101001111101項目三維目標物以類聚,人以群分,引導學生向最好的學習,做更好的自己,縮小和優秀同學間的差異不斷迭代,尋求最優聚類質心,引導學生在學習中不斷探索,培養精益求精的工匠精神分析聚類算法的優缺點,培養學生的辯證思維,更全面地認識、解決問題能力目標素質目標知識目標011011110110101111010111100100001011010101001111101觀影用戶聚類分析流程數據讀取聚類分析模型可視化模型評估明確目標以兩部電影的影評數據為藍本,對觀影用戶進行聚類,通過用戶群的細分以實現更為合理的客戶關系維護與管理。數據讀取聚類分析模型可視化模型評估明確目標從評分數據文件(filmScore.csv)中讀取原始數據通過可視化理解原始數據觀影用戶聚類分析流程數據讀取聚類分析模型可視化模型評估明確目標1.使用BDSCAN聚類確定質心個數(簇的數量)2.使用K-Means對相似數據進行聚類觀影用戶聚類分析流程數據讀取聚類分析模型可視化模型評估明確目標使用可視化圖表展現所得模型觀影用戶聚類分析流程數據讀取聚類分析模型可視化模型評估明確目標在K-Mean聚類分析方法中,對K的取值使用適當的指標評估聚類模型優劣觀影用戶聚類分析流程項目實施結果011011110110101111010111100100001011010101001111101得到分類模型還在等什么?馬上動手實施觀影用戶聚類分析項目吧~1.聚類分析的基本概念:clusteranalysis2.聚類分析的基本流程:小結DBSCAN聚類分析任務實施【數據挖掘應用】課程觀影用戶聚類分析會使用sklearn包中的DBSCAN實現聚類分析應用
重點:阿里云大數據分析與應用中級5.2.3會調整DBSCAN聚類分析模型的參數實現分類效果的優化
難點:大數據工程技術人員國家職業技能標準中級6.3.2會使用Matplotlib包實現聚類模型的可視化能力目標證崗任務內容任務工單引導問題任務評價標準任務解決方案代碼解析使用BDSCAN聚類確定質心個數散點圖教學難點基于散點圖分析兩項數據的分布情況,判斷基于密度的聚類方法使用的可行性。接著,使用sklearn包中DBSCAN算法實現分析影評數據對用戶做聚類,并用圖表展現聚類結果。任務概述
任務描述:基于影評數據filmScore.csv,使用BDSCAN確定質心個數。010010011001101010100100110110100101110101000100001011011101001010101101010011010010任務工單
任務要求任務概述最后結果數據源(1)聚類分析與分類分析有何區別?在數據挖掘流程上是否有不同?(2)常見的聚類分析方法有哪些?其適用情境有何不同?(3)基于密度的聚類算法原理是什么?DBSCAN是如何實現聚類的?(4)sklearn中是如何實現DBSCAN聚類分析方法的?寫出關鍵函數與實現步驟。(5)DBSCAN算法中關鍵參數有哪些?對結果有何影響?”
問題引導:任務概述
任務評價:任務概述評價內容評價要點分值分數評定自我評價1.任務實施數據加載與分析3分數據導入正確得1分,源數據分析與可視化展現完備得2分
模型訓練2分模型構建正確得1分,訓練順利執行得1分
聚類結果展現2分能準確展現聚類結果得2分
2.參數調優模型可視化并評估效果2分評估結果詳細得1分
3.任務總結依據任務實施情況總結結論1分總結內容切中本任務的重點要點得1分
合計10分
任務解決方案
一、模型訓練過程1、初始化分類器2、擬合fit3、預測predict4、準確性評估#data中存儲了影評數據fromsklearn.cluster
importDBSCANy_pred=DBSCAN().fit_predict(data)
plt.scatter(data[0],data[1],c=y_pred)任務解決方案
二、模型可視化importmatplotlib.pyplotaspltfrompylabimportmpl#設置字體為SimHei,以顯示中文mpl.rcParams['font.sans-serif']=['SimHei']mpl.rcParams['axes.unicode_minus']=False#聚類結果的可視化plt.scatter(data['filmname1'],data['filmname2'],c=y_pred)plt.colorbar()plt.title(u'聚類結果(DBSCAN)')plt.show()任務解決方案
三、DBSCAN()參數調整#調用DBSCAN,確定質心個數y_pred=DBSCAN(eps=1.3,min_samples=20).fit_predict(data)任務解決方案
四、模型可視化進階importseaborn
assnsdbscan=DBSCAN()
dbscan.fit(data)
data['dbscan_label']=dbscan.labels_
g=sns.FacetGrid(data,hue='dbscan_label')
g.map(plt.scatter,0,1).add_legend()
plt.show()小結1.sklearn中如何實現DBSCAN算法?2.
如何調用sklearn中DBSCAN()實現觀影用戶聚類?3.
如何可視化聚類模型?稍安勿躁后續會有詳細說明與講解哦~隨機森林分類分析任務實施【數據挖掘應用】課程鳶尾花分類分析熟練使用sklearn第三方包實現機器學習算法應用;會應用隨機森林算法實現分類分析;會使用RandomForestClassifier()對鳶尾花進行分類分析與預測應用。能力目標主要內容任務工單引導問題任務評價標準任務解決方案代碼解析使用隨機森林實現鳶尾花分類iris.csv教學難點任務工單基于前續任務得到的數據,使用隨機森林算法實現鳶尾花類別判定,并區分兩個算法的異同。任務概述
基于花萼長度、花萼寬度、花瓣長度、花瓣寬度和鳶尾花類別數據,使用隨機森林實現分類分析。010010011001101010100100110110100101110101000100001011011101001010101101010011010010
任務描述:數據源iris.csv顯示結果
任務要求任務概述隨機森林模型評估K近鄰算法(1)隨機森林與決策樹有何本質上的異同?試結合該應用說明其中的原理。(2)隨機森林在sklearn中是如何實現的?有哪些實現方法?(3)sklearn隨機森林的實現中主要參數有哪些?哪些參數會對本任務的識別結果產生重要影響?(4)如何比較兩種不同分類方法的優劣?有哪些關鍵指標?”
問題引導:任務概述
任務評價:任務概述評價內容評價要點分值分數評定自我評價1.任務實施模型初始化3分導入正確得1分,模型選用正確得1分,模型構建正確得1分
模型訓練1分模型訓練順利執行得1分
模型預測1分歷史數據及預測結果展現得1分
2.效果評估模型可視化并評估效果3分能正確展現模型評估結果得2分,模型準確率92%以上得1分
3.任務總結依據任務實施情況總結結論2分總結內容切中本任務的重點要點得1分,能有效比較方法異同得1分
合計10分
任務解決方案核心部分代碼:fromsklearn.ensembleimportRandomForestClassifier#隨機森林分類預測clf=RandomForestClassifier(n_jobs=3)clf.fit(x_train,y_train[['Cluster']].values.ravel())y_pred=clf.predict(x_test)print("預測精確率:{:.2f}".format(clf.score(x_test,y_test[['Cluster']])))print(pd.crosstab(y_test['Cluster'],y_pred,rownames=['ActualValues'],colnames=['Prediction']))小結1.如何使用sklearn第三方包實現多分類分析?2.
如何調用RandomForestClassifier()實現鳶尾花分類分析?3.
如何對模型分類結果進行評估?不急后續會有詳細說明與講解哦~K-Means聚類分析任務實施【數據挖掘應用】課程觀影用戶聚類分析會使用sklearn包中的K-Means實現聚類分析應用
重點:阿里云大數據分析與應用中級5.2.3會調整K-Menas聚類分析模型的參數實現分類效果的優化
難點:大數據工程技術人員國家職業技能標準中級6.3.2會使用評估指標對K-Menas聚類分析結果進行評價能力目標證崗主要內容任務工單引導問題任務評價標準任務解決方案代碼解析使用K-Means對觀影用戶進行聚類質心個數教學難點基于前續任務得到的數據,即質心個數,使用K-Means算法實現觀影用戶的聚類,并區分兩個算法的異同。任務概述
任務描述:基于得到的K值,使用K-Means算法實現聚類分析。010010011001101010100100110110100101110101000100001011011101001010101101010011010010任務工單
任務要求任務概述最后結果前續任務的結果:k=3模型評估:不同K值(1)K-Means與DBSCAN聚類方法有何本質上的異同?試結合該應用說明其中的原理。(2)K-Means聚類分析方法在sklearn中是如何實現的?有哪些重要參數會對本任務的分類結果產生重要影響?(3)如何比較兩種不同聚類方法的優劣?有哪些關鍵指標?”
問題引導:任務概述
任務評價:任務概述評價內容評價要點分值分數評定自我評價1.任務實施數據讀取與展現1分數據讀取與可視化顯示正確得1分
模型初始化2分第三方包導入正確得1分,模型構建正確得1分
模型訓練與優化2分模型訓練能順利執行得1分,會參數調優得1分
2.效果評估聚類預測與可視化3分能正確展現聚類結果得3分
3.任務總結依據任務實施情況總結結論2分總結內容切中本任務的重點要點得1分,能有效比較方法異同得1分
合計10分
任務解決方案
一、模型訓練過程1、初始化分類器2、擬合fit3、預測predict4、準確性評估from
sklearn.cluster
import
KMeans#數據存儲在data變量中
num_clusters=3
kmeans=KMeans(
n_clusters=num_clusters,)
kmeans.fit(data)任務解決方案
二、模型可視化#分類結果step_size=0.01x_values,y_values=np.meshgrid(np.arange(x_min,x_max,step_size),np.arange(y_min,y_max,step_size))predicted_labels
=kmeans.predict(np.c_[x_values.ravel(),y_values.ravel()])
predicted_labels=predicted_labels.reshape(x_values.shape)#可視化plt.figure()
plt.clf()
plt.imshow(predicted_labels,interpolation='nearest’,extent=(x_values.min(),x_values.max(),y_values.min(),y_values.max()),cmap=plt.cm.Spectral,aspect='auto',origin='lower')任務解決方案
二、模型可視化#顯示質心
centroids=kmeans.cluster_centers_plt.scatter(centroids[:,0],centroids[:,1],marker='o',s=200,linewidths=3,color='k',zorder=10,facecolors='black’,edgecolors='white',alpha=0.9)任務解決方案
三、KMeans()參數調整num_clusters=2
kmeans=KMeans(init='K-Means++',n_clusters=num_clusters,n_init=10)
kmeans.fit(data)
n_init=1max_iter=10任務解決方案
四、K值的評估fromsklearnimportmetrics#計算Calinski-Harabasz分數值,Calinski-Harabasz分數值越大,則聚類效果越好metrics.calinski_harabaz_score(X,y_pred)70.238679616405246.9008430347095小結1.sklearn中如何實現K-Means算法?2.
如何調用sklearn中kmeans()實現觀影用戶聚類?3.
如何評估K-Means聚類模型?稍安勿躁后續會有詳細說明與講解哦~神經網絡分類分析任務實施【數據挖掘應用】課程鳶尾花分類分析會設計神經網絡實現分類分析;會使用Tensorflow實現設計的神經網絡分類器;會運用神經網絡對鳶尾花進行分類分析;會對神經網絡的參數進行調整和優化。能力目標主要內容任務工單引導問題任務評價標準任務解決方案代碼解析使用Tensorflow設計神經網絡實現鳶尾花分類iris.csv教學難點任務工單神經網絡分類器可以通過學習數據中的模式,對不同種類的數據進行分類。現基于前續任務得到數據及分類結果,進一步設計神經網絡并訓練模型實現鳶尾花類別判定。最后,區分這三個算法的異同。任務概述
基于花萼長度、花萼寬度、花瓣長度、花瓣寬度和鳶尾花類別數據,設計神經網絡分類器實現分類分析。010010011001101010100100110110100101110101000100001011011101001010101101010011010010
任務描述:數據源iris.csv顯示結果
任務要求任務概述神經網絡模型評估K近鄰算法隨機森林(1)神經網絡如何用來做分類分析的?結合應用,說明其中的原理。(2)神經網絡在TensorFlow中是如何靈活實現的?(3)在設計神經網絡時,結構中哪些參數比較關鍵?(4)激活函數有何作用?其選取有何規律?學習率又該取值?(5)比較神經網絡分類算法與前述兩種不同分類方法的優劣,其優勢體現在哪里?”
問題引導:任務概述
任務評價:任務概述評價內容評價要點分值分數評定自我評價1.任務實施模型初始化4分導入正確得1分,模型設計正確得1分,模型構建正確得1分,模型參數會修改得1分
模型訓練2分模型訓練順利執行得1分,會正確調整參數得1分
2.效果評估模型評估報告展現2分能準確解釋各個指標的含義得1分,模型準確率92%以上得1分
3.任務總結依據任務實施情況總結結論2分總結內容切中本任務的重點要點得1分,能有效比較三種方法的異同得1分
合計10分
任務解決方案核心部分代碼:輸入與輸出importtensorflowastf#添加占位符,四個輸入x_data=tf.placeholder(shape=[None,4],dtype=tf.float32)#添加占位符,一個輸出y_target=tf.placeholder(shape=[None,1],dtype=tf.float32)4個輸入1個輸出任務解決方案核心部分代碼:#定義如何添加一個隱藏層的函數defadd_layer(input_layer,input_num,output_num):weights=tf.Variable(tf.random_normal(shape=[input_num,output_num]))biase=tf.Variable(tf.random_normal(shape=[output_num]))hidden_output=tf.nn.relu(tf.add(tf.matmul(input_layer,weights),biase))returnhidden_output任務解決方案核心部分代碼:神經網絡結構#定義三層隱藏層對應的節點個數hidden_layer_nodes=[10,8,10]#
輸入層hidden_output=add_layer(x_data,4,hidden_layer_nodes[0])#循環添加三層隱藏層foriinrange(len(hidden_layer_nodes[:-1])):hidden_output=add_layer(hidden_output,hidden_layer_nodes[i],hidden_layer_nodes[i+1])#
輸出層final_output=add_layer(hidden_output,hidden_layer_nodes[-1],1)任務解決方案核心部分代碼:#定義損失函數,使得誤差最小loss=tf.reduce_mean(tf.square(y_target-final_output))#設置學習率來調整每一步更新的大小my_opt=tf.train.GradientDescentOptimizer(learning_rate=0.00004)#優化目標:最小化損失函數train_step=my_opt.minimize(loss)init=tf.global_variables_initializer()sess=tf.Session()sess.run(init)任務解決方案核心部分代碼:訓練loss_vec=[] #訓練損失test_loss=[] #測試損失#訓練次數foriinrange(10000):
#訓練sess.run(train_step,feed_dict={x_data:x_train,y_target:y_train})
#訓練數據評估模型temp_loss=sess.run(loss,feed_dict={x_data:x_train,y_target:y_train})loss_vec.append(np.sqrt(temp_loss))
#測試數據評估模型test_temp_loss=sess.run(loss,feed_dict={x_data:x_test,y_target:y_test})test_loss.append(np.sqrt(test_temp_loss))if(i+1)%1000==0:print('Generation:'+str(i+1)+'.Loss='+str(temp_loss))任務解決方案核心部分代碼:預測應用test_preds=[np.round(item,0)
foritemin
sess.run(final_output,feed_dict={x_data:x_test})]train_preds=[np.round(item,0)
foritemin
sess.run(final_output,feed_dict={x_data:x_train})]y_test=[iforiiny_test['Cluster']]y_train=[iforiiny_train['Cluster']]任務解決方案核心部分代碼:模型評估test_acc=np.mean([i==jfori,jinzip(test_preds,y_test)])*100train_acc=np.mean([i==jfori,jinzip(train_preds,y_train)])*100print('訓練數據預測精確率:{}'.format(train_acc))print('測試數據預測精確率:{}'.format(test_acc))小結1.
如何設計神經網絡實現鳶尾花分類分析?2.如何使用tensorflow實現神經網絡?3.
如何對神經網絡模型進行評估?不急后續會有詳細說明與講解哦~多層感知機分類分析任務實施【數據挖掘應用】課程鳶尾花分類分析熟練使用sklearn第三方包實現神經網絡應用;會應用多層感知機實現分類分析;會使用MLPClassifier()對鳶尾花進行分類分析與預測應用;會調整MLPClassifier()參數實現模型的優化。能力目標主要內容任務工單引導問題任務評價標準任務解決方案代碼解析使用多層感知機實現鳶尾花分類iris.csv教學難點任務工單基于前續任務得到的數據,及分類結果,使用多層感知器實現鳶尾花種類判定,并區分不同算法的異同。任務概述
基于花萼長度、花萼寬度、花瓣長度、花瓣寬度和鳶尾花類別數據,使用多層感知機實現分類分析。010010011001101010100100110110100101110101000100001011011101001010101101010011010010
任務描述:數據源iris.csv顯示結果
任務要求任務概述多層感知機模型評估自定義神經網絡K近鄰算法隨機森林(1)多層感知機與神經網絡存在什么樣的關聯?說明多層感知機的區別與聯系。(2)多層感知機在sklearn中是如何實現分類的?其關鍵參數有哪些?(3)多層感知機參數應該如何配置?有無規律可循?(4)比較多層感知機分類算法與前述不同分類算法的優劣,其優勢體現在哪里?”
問題引導:任務概述
任務評價:任務概述評價內容評價要點分值分數評定自我評價1.任務實施模型初始化4分導入正確得1分,模型選用正確得1分,模型構建正確得1分,模型參數會修改得1分
模型訓練2分模型型訓練順利執行得1分,會正確調整參數得1分
模型評估報告展現2分能準確解釋各個指標的含義得1分,模型準確率92%以上得1分
2.效果評估依據任務實施情況總結結論2分總結內容切中本任務的重點要點得1分,能有效比較不同方法的異同得1分
合計10分
任務解決方案核心部分代碼:fromsklearn.neural_networkimport
MLPClassifier#神經網絡分類預測mlp=MLPClassifier(solver='sgd',activation='relu',alpha=1e-4,hidden_layer_sizes=(10,10),random_state=1,max_iter=500,verbose=10,learning_rate_init=.005)#訓練模型mlp.fit(x_train,y_train[['Cluster']].values.ravel())#評估模型y_pred=mlp.predict(x_test)print("預測精確率:{:.2f}".format(mlp.score(x_test,y_test[['Cluster']])))print(pd.crosstab(y_test['Cluster'],y_pred,rownames=['ActualValues'],colnames=['Prediction']))任務解決方案運行結果示例:小結1.如何使用sklearn第三方包實現多分類分析?2.
如何調用MLPClassifier()實現鳶尾花分類分析?3.
如何對模型分類結果進行評估?不急后續會有詳細說明與講解哦~項目背景|項目概述|主要任務|任務實施步驟拓展實訓用戶聚類分析【數據挖掘應用】01101111011010111101010000101101010100111101背景先導項目概述項目主要任務任務實施步驟01Background02BriefIntroduction03Tasks04ImplementationSteps主要內容項目總體要求
用戶聚類分析
從hws.csv文件中讀取數據,并根據身高、體重、性別對用戶進行聚類,并選擇適當的圖表對聚類分析結果進行可視化。最終,為用戶推薦合適的產品、提供健身建議。項目實施結果得到聚類模型熟練使用sklearn實現聚類分析應用
重點:阿里云大數據分析與應用中級5.2.3會調整聚類分析模型的參數實現聚類效果的優化
難點:大數據工程技術人員國家職業技能標準中級6.3.2會使用Matplotlib等可視化包實現聚類模型的可視化證崗項目能力目標
一、使用DBSCAN聚類算法依據身高、體重、性別數據進行聚類(1)從hws.csv中讀取數據
(2)數據預處理:標簽映射(3)原始數據可視化分析(4)使用DBSCAN獲取簇的數量(5)DBSCAN模型可視化項目實施步驟
二、使用K-Means聚類算法依據身高、體重、性別數據進行聚類(1)基于DBSCAN獲得的簇類數量,設置KMeans()中的相應參數(2)使用K-Means聚類算法對用戶進行聚類(3)調整KMeans()參數(4)選擇指標評估K-Means模型的優劣(5)最優模型的可視化項目實施步驟任務解決方案:DBSCAN示例#加載數據data=pd.read_csv('hws.csv')#對性別進行數值化處理le=preprocessing.LabelEncoder()da
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 我的夢想演講稿話題方向性7篇
- 朋友間的真誠友誼寫人作文5篇
- 音樂專業考試試題及答案
- 易溶鹽考試試題及答案
- 六一公司關愛活動方案
- 六一創意足球活動方案
- 六一小班活動方案
- 六一攤位義賣活動方案
- 六一檢察活動方案
- 六一活動創意活動方案
- 2025年廣東省萬閱大灣區百校聯盟中考二模語文試題(含答案)
- 護士理論考試試題及答案
- 2025年江蘇省蘇州園區星海中考英語二模試卷
- 福建省廈門市2023-2024學年高一下學期期末質量檢測歷史試題(解析版)
- 工程項目經理競聘演講稿
- 賽艇考試標準
- 外墻巖棉夾芯板施工方案圖文
- 球墨鑄鐵管件項目可行性研究報告寫作范文
- 小數加減法脫式計算及簡便運算100道
- MSG-3中文版課件
- 盾構施工總結(doc106頁)
評論
0/150
提交評論