




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
DataMining
Unit
6TextAContents
NewWords
Abbreviations
Phrases參考譯文NewWordsNewWordsNewWordsNewWordsPhrasesAbbreviationsListeningtoTextA數據挖掘1.什么是數據挖掘?數據挖掘是一種實踐活動,它對大量數據進行自動搜索,目的在于發現用簡單分析不能找到的模式和趨勢。數據挖掘使用復雜的數學算法來分割數據并評估未來事件的可能性。數據挖掘也稱為數據知識發現(KDD)。1.1自動發現數據挖掘是通過構建模型來完成的。模型把算法用于一組數據。自動發現的概念是指執行數據挖掘模型。數據挖掘模型可用于挖掘構建它們的數據,但是大多數類型的模型均可泛化到新數據。將模型應用于新數據的過程被稱為評分。1.2預測許多形式的數據挖掘都是可預測的。例如,模型可以根據教育程度和其他人口統計因素預測收入。預測具有關聯的概率(此預測為真的可能性有多大?)。預測概率也稱為置信度(我對這個預測有多少信心?)。參考譯文某些形式的預測性數據挖掘會生成規則,它們是顯示給定結果的條件。例如,一條規則可能會指定擁有學士學位并且居住在某個社區中的人的收入可能會高于該區域平均水平。規則具有相關的支持(滿足規則的人口百分比是多少?)。1.3分組其他形式的數據挖掘可識別數據中的自然分組。例如,模型可能會確定收入在指定范圍內,具有良好駕駛記錄并每年租賃新車的人群。1.4可行信息數據挖掘可以從大量數據中獲取可操作的信息。例如,城鎮規劃人員可能會使用基于人口統計數字預測收入的模型來制定低收入住房計劃。汽車租賃公司可能會使用一種識別客戶細分的模型,以設計針對高價值客戶的促銷活動。2.數據挖掘的步驟2.1理解業務在數據挖掘簡介中,我們將了解業務目標和需求的各個方面。通過查找資源、假設和其他重要因素來評估當前狀況。因此,建立良好的數據挖掘計劃將有助于實現業務和數據挖掘目標。參考譯文參考譯文2.2理解數據最初,從所有現有來源收集數據。然后,我們從中提取最佳數據集,從中提取可能更有益的數據。2.3準備數據識別出數據集后,將以所需的形式對其進行選擇、清理、構建和格式化。2.4數據建模這是根據用戶要求重新構建給定數據的過程。可以根據準備好的數據集創建一個或多個模型,最后,利益相關者需要仔細評估模型,以確保創建的模型符合業務計劃。2.5評估這是數據挖掘中最必要的過程之一。它包括遍歷過程的各個方面,以檢查過程中是否存在任何可能的故障或數據泄漏。此外,由于發現了新的模式,可能會提出新的業務需求。2.6部署它意味著只呈現知識,以使利益相關者可以在需要時使用它。例如,發現星期三的國際電話較少。當將這些信息提供給利益相關者時,他們反過來可以利用這些信息使自己受益,并增加他們的利潤。3.數據挖掘的類型3.1平滑數據挖掘技術的這種特定方法屬于準備數據的范疇。該技術的主要目的是消除數據中的噪聲。這里使用簡單指數、移動平均值之類的算法來消除噪聲。在探索性分析中,此技術非常便于可視化趨勢/情感。3.2聚合顧名思義,就是聚合一組數據以獲得更多信息。該技術用于總覽業務目標,可以手動執行,也可以使用專用軟件執行。這種技術通常用于大數據,因為大數據不能提供整體所需的信息。3.3泛化再次,顧名思義,這種技術被用來整體上泛化數據。這與聚合不同,因為泛化過程中的數據不是為了獲取更多信息而組合在一起,而是對整個數據集進行了泛化。這將使數據科學模型能夠適應更新的數據點。參考譯文3.4歸一化在此技術中,對數據點采取了特殊的措施,以便將它們置于相同的范圍下進行分析。例如,一個人的年齡和薪水屬于不同的度量標準,因此將其繪制在一個圖表上并不會幫助我們獲得有關作為整體特征呈現的趨勢的任何有用信息。使用歸一化,我們可以將它們放到同等類別,以便可以進行逐一比較。3.5屬性/功能選擇在這項技術中,我們采用一些方法來執行特征選擇,以便用于訓練數據集的模型可以表明價值以預測未看到的數據。這非常類似于從裝滿衣服的衣柜中選擇與自己的活動相匹配的衣服。不相關的功能可能會對模型性能產生負面影響,更不用說提高性能了。3.6分類在這種數據挖掘技術中,我們處理稱為“類”的組。在此技術中,我們將選擇的共同特征應用于組/類別。例如,在一家商店中,如果我們必須評估一個人是否會購買某種產品,那么我們可以集體使用“n”個特征來獲得對/錯的結果。參考譯文3.7模式跟蹤這是數據挖掘中所用的基本技術之一,用來獲取有關可能由數據點顯示的趨勢/模式信息。例如,我們可以確定在周末或節假日銷售有增加的趨勢而不是在平日或工作日。3.8離群分析或異常檢測此技術用于查找或分析離群值或異常值。離群值或異常值不是負數據點,它們只是與整個數據集的總體趨勢不同的東西。在識別異常值時,我們可以將它們從數據集中完全刪除,這在完成數據準備時會發生。或者把該技術廣泛用于模型數據集中以預測離群值。3.9聚類該技術與分類非常相似,但唯一的區別是我們不知道數據點所屬的組。此方法通常用于對人員進行分組以針對相似的產品推薦。參考譯文參考譯文3.10回歸該技術用于預測存在其他特征時某個特征的可能性。例如,我們可以根據需求、競爭和其他一些特征來規劃商品可能的價格。3.11神經網絡該技術基于生物神經元的工作原理。與人體神經元的原理相似,數據挖掘工作中的神經網絡中的神經元也充當處理單元,并連接另一個神經元以便沿著鏈路傳遞信息。3.12關聯在這種數據挖掘方法中,確定不同特征之間的關系,然后根據業務需求將其用于查找隱藏模式或進行相關分析。例如,使用關聯,我們可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 第九章+走進國家-2024-2025學年七年級地理下學期期末(湘教版2024)
- 不合格品控制流程
- Brand KPIs for online betting:22Bet in Germany-英文培訓課件2025.5
- DeepSeek+輔導教育應用場景規劃方案
- 讓學生走出自卑、秀出自己的教育案例分析
- 向華為公司學習績效管理(一)12P
- 現代設計史試題及答案
- 物理模擬試題及答案
- 2025年河南省南陽市桐柏縣中考三模數學試題(含答案)
- (期末培優卷)期末常考易錯培優卷-2024-2025學年五年級下學期數學(含解析)
- 軸對稱與軸對稱圖形課件
- 新疆禮信新材料有限公司年產5千噸碳酸鋰及5萬噸新型材料項目環評報告表
- 期末考試復習方法指導《復之有道習之有效》期末考試動員期末考試心態調整主題班會
- 孩子的玩耍與學習的平衡
- 護理查房流程甲亢
- 大學物理實驗(上):透鏡焦距的測量
- 認識飛機(課堂PPT)
- 綠化檢驗批劃分
- 《國歌法》、《國旗法》主題班會
- 回避聲明模板
- 泵的選型原則、依據及步驟
評論
0/150
提交評論