



下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大良及上大寫網絡教育學院數據挖掘課程大作業題 目:姓 名:報名編號: 學習中心:層 次: 專升本專 業:計算機科學與技術第一大題:講述自己在完成大作業過程中遇到的困難, 解決問題的思 路,以及相關感想,或者對這個項目的認識,或者對 Python與數據 挖掘的認識等等,300-500字。數據挖掘是一門重要的專業課。數據挖掘引起了信息產業界的極大關注, 其主 要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的 信息和知識。數據挖掘就是從大量的數據中,抽取出潛在的、有價值的知識、模 型或規則的過程。作為一類深層次的數據分析方法,它利用了數據庫、人工智能 和數理統計等多方面的技術。
2、要將龐大的數據轉換成為有用的信息, 必須先有效率地收集信息。隨著科技 的進步,功能完善的數據庫系統就成了最好的收集數據的工具。數據倉庫,簡單地說,就是搜集來自其它系統的有用數據, 存放在一整合的儲存區內。所以其實 就是一個經過處理整合,且容量特別大的關系型數據庫,用以儲存決策支持系統 所需的數據,供決策支持或數據分析使用。數據挖掘的研究領域非常廣泛、主要包括數據庫系統、基于知識的系統、人 工智能、機器學習、知識獲取、統計學、空間數據庫和數據可視化等領域。主要 是可以做以下幾件事:分類、估計、預測、關聯分析、聚類分析、描述和可視化、 復雜數據類型挖掘第二大題:完成下面一項大作業題目2019秋數據
3、挖掘課程大作業題目一:Knn算法原理以及python實現要 求:文檔用使用word撰寫即可。主要內容必須包括:(1)算法介紹。(2)算法流程。(3) python實現算法以及預測。(4)整個word文件名為姓名 奧鵬卡號 學習中心(如 戴衛東101410013979浙江臺州奧鵬學習中心1VIP )答:一、knn算法介紹1 .介紹鄰近算法,或者說K最近鄰(kNN, k-NearestNeighbor)分類算法是數據挖掘 分類技術中最簡單的方法之一。所謂K最近鄰,就是k個最近的鄰居的意思,說 的是每個樣本都可以用它最接近的 k個鄰居來代表。kNN算法的核心思想是如果 一個樣本在特征空間中的k個最相
4、鄰的樣本中的大多數屬于某一個類別, 則該樣 本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只 依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。kNN方法在類別決策時,只與極少量的相鄰樣本有關。由于kNN方法主要靠周圍有限的鄰 近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。2 .核心概括主要的思想是計算待分類樣本與訓練樣本之間的差異性,并將差異按照由小 到大排序,選出前面K個差異最小的類別,并統計在K個中類別出現次數最多的 類別為最相似的類,最終將待分類樣本分到最相似的訓練樣本的類中
5、。與投票 (Vote)的機制類似。二、knn算法流程1 .準備數據,對數據進行預處理2 .選用合適的數據結構存儲訓練數據和測試元組3 .設定參數,如k4 .維護一個大小為k的的按距離由大到小的優先級隊列,用于存儲最近鄰訓 練元組。隨機從訓練元組中選取k個元組作為初始的最近鄰元組,分別計算測試 元組到這k個元組的距離,將訓練元組標號和距離存入優先級隊列5 .遍歷訓練元組集,計算當前訓練元組與測試元組的距離,將所得距離 L 與優先級隊列中的最大距離Lmax6 .進行比較。若L>=Lmax則舍棄該元組,遍歷下一個元組。若 L < Lmax, 刪除優先級隊列中最大距離的元組,將當前訓練元組
6、存入優先級隊列。7 .遍歷完畢,計算優先級隊列中k個元組的多數類,并將其作為測試元組 的類別。8 .測試元組集測試完畢后計算誤差率,繼續設定不同的k值重新進行訓練, 最后取誤差率最小的k值。三、代碼實現使用python程序模擬KNN#法Created on Sat Jun 22 18:38:22 2019author: zhenimport numpy as npimport collections as csdatanp.array( 203,1,126,1,89,1,70,1,196,2,211,2,221,2,311,3,271,3)特征feature = data:,0 # print
7、(feature)label = data:,-1 #結果分類print(label)predictPoint = 200 #預測數據print(" 預測輸入特征為: " + str(predictPoint)distance = list(map(lambda x : abs(predictPoint - x), feature) # 各 點到預測點的距離print(distance)sortIndex = np.argsort(distance) # 排序,返回排序后各數據的原始下標print(sortIndex)sortLabel = labelsortIndex #
8、 根據下標重新進行排序print(sortLabel)# k = 3 # 設置k值大小為3for k in range(1,label.size+1):result = cs.Counter(sortLabel0:k).most_common(1)00 #根據 k值計算前 k 個數據中出現次數最多的分類,即為預測的分類print(" 當 k=" + str(k) + " 時預測分類為: " + str(result)四、結果203 126 89 70 196 211 221 311 2711 1 1 1 2 2 2 3 3預測輸入特征為: 2003, 74, 111, 130, 4, 11, 21, 111, 710 4 5 6 8 1 2 7 31 2 2 2 3 1 1 3 1當 k=1 時預測分類為:1當 k=2 時預測分類為:1當 k=3 時預測分類為:2當 k=4 時預測分類為:2當 k=5 時預測分類為:2當 k=6 時預測分類為:2當 k=7 時預測分類為:1當 k=8 時預測分類為:1當 k=9 時預測分類為:1總結1. 根據訓練數據和結果可知,當k較小時【比如本次當k=11 ,若訓練數據 存在異常數據時容易出現預測錯誤的情況,因此一般K值都不能太小!2. 當 k 值較大時,某個分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國羊養殖市場全景評估及發展趨勢研究預測報告
- 2025年中國直升機發動機市場競爭態勢及投資方向研究報告
- 2024年全球及中國GHK-Cu 勝肽行業頭部企業市場占有率及排名調研報告
- 開放型游艇項目投資可行性研究分析報告(2024-2030版)
- 2025年中國電光源制造行業市場全景監測及投資前景展望報告
- 彬木指接板項目投資可行性研究分析報告(2024-2030版)
- 2025至2030中國瑜伽工作室排課軟件行業項目調研及市場前景預測評估報告
- 2025年中國牛角刮痧板行業市場發展前景及發展趨勢與投資戰略研究報告
- 2024年中國熱轉移用聚酯薄膜行業調查報告
- 重慶市名校聯盟2024-2025學年高二下學期期中聯考語文試題(含答案)
- DB22-T2979-2019-基質瀝青相似度檢測紅外光譜法-吉林省
- 《小王子繪本教學課件》
- 金華市皓升再生資源有限公司年回收拆解20萬輛電動自行車生產線技改項目
- 2025-2030中國滅草松原藥行業市場現狀分析及競爭格局與投資發展研究報告
- 2025年金融衍生工具試題
- 2025-2030中國陶瓷瓦行業市場現狀供需分析及投資評估規劃分析研究報告
- 電池管理系統(BMS)的智能化升級-全面剖析
- 現場7S管理培訓
- 液氨安全管理及應急處置
- 小學生心肺復蘇培訓課件
- 《燕麥中的生物素:對頭發、皮膚和指甲健康的潛在益處》論文
評論
0/150
提交評論