


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、Spark ML 算法簡單介紹一、線性回歸算法線性回歸Regression),的一種統計分析方法,其表達形式為y = 為誤差服從均值為 0 的正態分布,其中只有一個自變量的情況稱為簡單回歸,多個自變量的情況叫多元回歸。這個例子中近簡化使用房屋面積一個因子作為自變量,y 軸對應其因變量房屋價格。所以我們機器學習的線性回歸就變為對于給定有限的數據集,進行一元線性回歸,即找到一個一次函數y=y(x) + e,使得y 滿足當 x=2104, 1600, 2400, 1416, 3000, . , y=400, 330, 369, 232, 540, . 如下圖所示:至于公式的求解,大家可以自己去看一下
2、源碼或者方程求解,這里就不講解了。二、邏輯回歸算法logistic 回歸本質上是線性回歸,只是在特征到結果的映射中加入了一層函數映射,即先把特征線性求和,然后使用函數g(z)將最為假設函數來預測。g(z)可以將連續值映射到 0 和 1 上。它與線性回歸的不同點在于:為了將線性回歸輸出的很大范圍的數,例如從負無窮到正無窮,壓縮到0 和 1 處,就是可以消除特別冒尖的變量的影響。三、貝葉斯分類算法貝葉斯定理貝葉斯定理解決的是這樣一個問題:已知在事件B 發生的條件下,事件A 的發生概率P(A|B),怎樣得到事件 A 發生的條件下,事件B 的發生概率 P(B|A)?貝葉斯定理為我們打通了從 P(A|B
3、) 到 P(B|A) 的道路。P(B|A) = P(A|B) P(B) / P(A)舉例說明,假設已經有了 100 個 email,其中: 垃圾郵件占比 60%,即 P(Spam) = 0.680%的垃圾郵件包含關鍵字“buy”,即 P(Buy|Spam) = 0.820%的垃圾郵件不包含關鍵字“buy”正常郵件占比 40%,即 P(NotSpam) = 0.410%的正常郵件包含關鍵字“buy”,即 P(Buy|NotSpam) = 0.190%的正常郵件不包含關鍵字“buy”現在,第 101 個 email 進來了,它包含關鍵字“buy”,那么它是垃圾郵件的概率 P(Spam|Buy) 是
4、多少? P(Spam|Buy) = P(Buy|Spam) P(Spam) / P(Buy)P(Buy) = P(Buy|Spam) P(Spam) + P(Buy|NotSpam) P(NotSpam) P(Spam|Buy) = (0.8 0.6) / (0.8 0.6 + 0.1 0.4) = 0.48 / 0.52 = 0.923由此得出,這個 email 有 92.3%的可能是一個垃圾郵件。四、SVM 支持向量機算法 算法輸出一個最優化的分隔超平面。五、決策樹算法量的,回歸樹是處理連續變量。樣本一般都有很多個特征,有的特征對分類起很大的作用,有的特征對分類作用很小,甚至沒有作用。如決
5、 定是否對一個人貸款是,這個人的信用記錄、收入等就是主要的判斷依據,而性別、婚姻狀況等等就是次要 的判斷依據。決策樹構建的過程,就是根據特征的決定性程度,先使用決定性程度高的特征分類,再使用決 2)剪枝,為了預防和消除過擬合,需要對決策樹剪枝。六、 Kmeans 聚類算法聚類(clustering)與分類(classification)的不同之處在于:分類是一種示例式的有監督學習算法,它要求必 七、LDA主題模型算法隱含狄利克雷分配(LDA,Latent Dirichlet Allocation)(Topic Model,即從所收集的文檔中推 測主題)。 甚至可以說LDA 模型現在已經成為了主
6、題建模中的一個標準,是實踐中最成功的主題模型之一。那么何謂“主題”呢?,就是諸如一篇文章、一段話、一個句子所表達的中心思想。不過從統計模型的角度 來說, 我們是用一個特定的詞頻分布來刻畫主題的,并認為一篇文章、一段話、一個句子是從一個概率模型LDA 可以用來識別大規模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋of words)的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為了易于建模的LDA 可以被認為是如下的一個聚類過程:各個主題(Topics)對應于各類的“質心”,每一篇文檔被視為數據集中的一個樣本。主題和文檔都
7、被認為存在一個向量空間中,這個向量空間中的每個特征向量都是詞頻(詞袋模型) 使用一個基于統計模型的方程八、FPGrowth關聯規則算法關聯規則挖掘的一個典型例子是購物籃分析。關聯規則研究有助于發現交易數據庫中不同商品(項)局、貨存安排以及根據購買模式對用戶進行分類。九、 ALS 交替最小二乘算法ALS(Alternating Least 表示商品,用戶給商品打分,但是并不是每一個用戶都會給每一種商品打分。比如用戶u6 就沒有給商品v3 打分,需要我們推斷出來,這就是機器學習的任務。由于并不是每個用戶給每種商品都打了分,可以假設ALS 矩陣是低秩的,即一個m*n 的矩陣,是由m*k 和k*n 兩
8、個矩陣相乘得到的,其中km,n。Amn=UmkVkn料就相當于一個隱藏特征。上面的公式中的程度。機器學習的任務就是求出Umk 和Vkn。可知uiTvj 是用戶i 對商品j 的偏好,使用Frobenius 范數來量化重構U 和V 產生的誤差。由于矩陣中很多地方都是空白的,即用戶沒有對商品打分,對于這種 情。這樣就將協同推薦問題轉換成了一個優化問題。目標函數中U 和V即先假設U 的初始值U(0)可以計算出 V(0)計算出U(1),這樣迭代下去,直到迭代了一定的次數,或者收斂為止。雖然不能保證收斂的全局最優解,但是影響不大。十、協同過濾推薦算法別新的 user-item 關系。協同過濾領域主要的兩種方式是最近鄰方法和潛在因子 factor)要集中在 ite
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- u校園測試試題及答案
- 調查之風面試題目及答案
- 煤礦職稱面試題及答案
- 房地產市場調研問卷試題
- 藝術鑒賞與創作能力評估試題
- 軟件設計師考試網絡安全知識試題及答案
- 網絡設備管理與運維試題及答案
- 剖析重點2025年軟考網絡工程師試題及答案
- 復雜系統控制試題及答案集
- 對外經濟政策的分析與制定試題及答案
- 2024年江蘇省連云港市新海實驗中學中考三模地理試題
- MOOC 知識創新與學術規范-南京大學 中國大學慕課答案
- 大腦語言功能區
- 山東省高考志愿規劃
- 珠寶銷售個月工作總結
- 污水處理廠人工智能與機器學習應用
- 機械通氣基礎知識與常見模式
- 《發酵產物分離純化》課件
- 物業服務費用收支情況明細表
- Lazada官方跨境電商運營全書
- 海南省近5年中考語文作文真題及模擬題匯編(含參考例文)
評論
0/150
提交評論