




已閱讀5頁,還剩144頁未讀, 繼續免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數據分析培訓,數據分析培訓,2010-4-14,數據分析培訓,目錄,數據分析的重要性及提升經驗-Gary0.5小時思路和方法-May1小時撰寫分析報告的思路:Why/What/How事件分析改進的思路:DMAIC案例分享統計基礎-May2小時概率論描述性統計假設檢驗方差分析回歸分析(一元)抽樣方法,數據分析培訓,數據分析的三個層次,正確恰當地描述企業數據和信息數據收集運用表格和圖表表示數據數值描述的度量運用樣本信息得出總體結論概率論基礎離散分布、正態分布置信區間、假設檢驗進行可靠的預測簡單線性回歸多元回歸時間序列預測,入門容易,精深難!,數據分析培訓,撰寫分析報告的思路,環節不能缺失次序不能顛倒內容本身比版面設計更重要,Why,What,How,數據分析培訓,常見的不夠好的分析報告,只有What-How,What,只有What,What,How,你見過的好分析報告具備什么特征?,數據分析培訓,事件分析改進的思路:DMAIC,DMAIC來源于6sigma6sigma基本知識DMAIC介紹,數據分析培訓,一、六西格瑪管理的起源和推廣,1、起源,數據分析培訓,一、六西格瑪管理的起源和推廣,2、推廣,1)聯合信號公司,1992年,博西迪將六西格瑪引入聯合信號公司。公司的收益從1991年的3.42億美元增長到1997年的11.7億美元。而且連續31個季度保持每股利潤13%以上的增長,公司的股價增長了8倍。,2)美國通用電氣公司,六西格瑪方法演變為一個管理系統。,3)其它,福特、杜邦、ABB、3M、東芝、三星、LG、西門子、愛立信、花旗銀行、美國運通、英特爾、微軟等跨國公司。,數據分析培訓,-全面關注、了解客戶需求!-量化管理!-流程優化/改進,減少缺陷!-持續改善,追求卓越的質量!,6Sigma的管理方法重點是將所有的工作作為一種流程,采用量化的方法分析流程中影響質量的因素,找出最關鍵的因素加以改進從而達到更高的客戶滿意度。-杰克韋爾奇,二、什么是6-Sigma,數據分析培訓,-Sigma是一個統計學測量單位,它反映了一個流程的表現水平。Sigma水平表達的是每個環節滿足客戶要求的程度。,6水平,=,百萬次機會3.4次缺陷,二、什么是6-Sigma,數據分析培訓,B槍手,u,LCL,UCL,u,LCL,UCL,什么是Sigma?,數據分析培訓,什么是6-Sigma?,Spec.LimitPercentDefectivePPM130.236977002693266810499.37906210599.9767233699.9996603.4,-6,-3,T,+3,+6,+1.5,-1.5,3.4DPMODefectsperMillionOpportunity,3.4DPMODefectsperMillionOpportunity,左偏移,右偏移,6sigma比3sigma好20000倍,數據分析培訓,6Sigma包括兩套嚴格的,系統化地應用統計學工具的分析方法:,兩種方法都強調關注輸入來實現對輸出的改善。,DMADV:設計新的產品和流程,DMAIC:改善現有的產品或流程,二、什么是6-Sigma,數據分析培訓,定義Define,DMAIC,二、什么是6-Sigma,數據分析培訓,DMADV,二、什么是6-Sigma,數據分析培訓,DMAIC,SixSigma五步法,定義問題范圍,明確客戶需求,確認業務流程,成立高效團隊,項目范圍確定:解決什么問題,團隊建設(成員、章程)項目推進計劃,業務主流程圖SIPOC細化的關鍵業務流程圖,客戶關心的關鍵質量CTQ,可使用的工具,頭腦風暴、因果圖柏拉圖等客戶調查、抽樣統計QFD、矩陣表、雷達圖等KPI流程圖項目管理,每一步工作,每一步工作輸出,數據分析培訓,DMAIC,SixSigma五步法,明確測量對象,明確測量標準,現狀水平分析,確定項目目標,確定衡量項目指標、參數,項目計劃書(目標、收益預算),目前的績效水平,測量系統、Defect的定義測量系統分析/改進報告,每一步工作,可使用的工具,檢查表抽樣統計JMP統計軟件測量基礎測量系統分析-MAS項目管理,每一步工作輸出,數據分析培訓,DMAIC,SixSigma五步法,細化流程,分析影響因素,找關鍵因子,流程分析報告,關鍵因素X確定并排序,影響項目Y值的輸入因素X,每一步工作,可使用的工具,頭腦風暴、因果圖、原因篩選相關性分析對比實驗多變異分析-ANOVA失效模式和后果分析-FMEA柏拉圖、JMP統計軟件,每一步工作輸出,數據分析培訓,DMAIC,SixSigma五步法,找出改進方案,針對每一個關鍵因素X找出盡可能多的改進方案,評估方案,選擇的方案,方案實施,效果驗證,行動計劃表并實施,改善效果分析報告,每一步工作輸出,每一步工作,可使用的工具,頭腦風暴、方案評估實驗設計-DOE回歸分析、對比分析責任矩陣、甘特圖項目管理客戶滿意度調查統計基礎、JMP軟件,數據分析培訓,DMAIC,SixSigma五步法,控制跟蹤,固化改進,文件、制度、體系的形成,改善效果監控報告關鍵因素監控報告,確定新的改善思路,再次尋找改善機會,持續改善,每一步工作,可使用的工具,抽樣統計SPC控制圖客戶滿意度調查JMP統計軟件,每一步工作輸出,數據分析培訓,追求卓越(6水平-幾乎完美的結果)持續改善(不斷改進與創新),在GE6Sigma作為企業的一種戰略被實施。,二、什么是6-Sigma,數據分析培訓,注:DPPM表示每百萬產品中的缺陷數量,水平23456,DPPM308,70066,8106,2102333.4,劣質產品的成本(占銷售額)30-40%20-30%15-20%10-15%0,則表明此分布為陡峭;高窄峰如果峰度F,則拒絕原假設H0,表明均值之間的差異是顯著的,所檢驗的因素對觀察值有顯著影響若FF,則不能拒絕原假設H0,無證據支持表明所檢驗的因素對觀察值有顯著影響,基本知識,數據分析培訓,用EXCEL進行單因素方差分析,工具數據分析方差分析-單因素方差分析,工具,數據分析培訓,五、相關與回歸分析建立質量特性與其影響因子的定量關系,數據分析培訓,相關分析概念,廣義的相關關系就是指社會經濟現象中普遍存在的依存關系和制約關系。這一點可以從唯物辯證法的高度去理解。而且社會經濟現象之間的這種依存制約關系通常都可以通過數量關系表現出來。但統計所指的不是廣義的相關關系,而是狹義的相關關系。狹義相關關系。這種關系也就是因果關系(單向因果和雙向因果)和關聯關系(同因異果和異果同因)。,基本知識,數據分析培訓,1、按相關關系涉及的因素多少劃分(1)一元(單)相關:兩個因素之間的相關。(2)多元(復)相關:三個及三個以上因素之間的相關。2、按相關關系變化的方向劃分(1)正相關:變量的變動方向一致(同增同減)。(2)負相關:變量的變動方向相反(一增一減)。3、按相關關系的表現形態劃分(1)線性(直線)相關:在坐標圖上兩個變量對應的散布點近似地呈直線形式。(2)非線性(曲線)相關:在坐標圖上兩個變量對應的散布點近似地呈某種曲線形式。,相關分析種類,基本知識,數據分析培訓,例:,線性相關,非線性相關,4、按相關的程度劃分(1)完全相關:即變量之間存在函數關系。(2)不完全相關:即狹義上的相關關系。(3)不相關:即變量相互獨立,互不影響。,基本知識,數據分析培訓,(1)含義:相關系數是一個用于從定量方面測定兩個變量之間線性相關程度和方向的最重要的指標。即用于線性單相關(簡單線性相關或直線相關)的測定。(2)相關系數的取值范圍為:(3)當為正值時,兩變量呈正相關;當為負值時,兩變量呈負相關。(4)相關系數的絕對值愈大,表示兩變量之間相關程度愈密切;1為完全正相關;1為完全負相關。(5)相關系數的絕對值愈小,愈接近0,表示兩變量之間相關程度愈低,當0時,兩變量完全沒有直線相關。(6)線性相關的一般判斷準則:,相關系數,使用此原則的前提條件是計算相關系數的原始根據要比較多,否則相關系數的可信程度會降低。,基本知識,數據分析培訓,(一)相關關系的一般判斷:即初步定性分析現象之間有無相關關系。采用相關圖的方法。(二)相關系數的計算和應用:從定量方面測定兩個變量之間線性相關程度和方向,相關分析步驟,基本知識,數據分析培訓,用Excel進行相關分析,相關系數的函數CORREL函數;數據分析-“相關系數”工具,工具,數據分析培訓,回歸分析就是對具有相關關系的兩個或兩個以上變量之間數量變化的一般關系進行測定,確定一個相應的數學表達式,以便從一個已知量來推測另一個未知量,為估計預測提供一個重要的方法。關于回歸方程(回歸模型)和回歸曲線(配合曲線)回歸方程:回歸分析中建立的反映變量間相關關系的數學表達式。回歸曲線:根據回歸方程配合得到的曲線,其表現形式有直線和曲線等。,回歸分析定義,基本知識,數據分析培訓,回歸和相關都是研究兩個變量相互關系的分析方法。但相關分析是研究兩個變量之間相關的方向和相關的密切程度,它不能指出兩變量相互關系的具體形式,也無法從一個變量的變化來推測另一個變量的變化關系。而回歸分析則是通過一定的數學方程來反映變量之間相互關系的具體形式,以便從一個已知量來推測另一個未知量,為估算預測提供一個重要的方法。,回歸分析與相關分析,基本知識,數據分析培訓,相關分析既可以研究因果關系的現象也可以研究共變的現象,不必確定兩變量中誰是自變量,誰是因變量。而回歸分析是研究兩變量具有因果關系的數學形式,因此必須事先確定變量中自變量與因變量的地位。在相關分析中計算相關系數的兩變量是對等的,改變兩變量的地位并不影響相關系數的數值。在回歸分析中因變量是隨機的,自變量是可控制的解釋變量,不是隨機變量,二者地位不對等。因此回歸分析只能用自變量來估計因變量,而不允許由因變量來推測自變量。,基本知識,回歸分析與相關分析,數據分析培訓,回歸分析和相關分析都屬于廣義的相關分析,二者是互相補充、密切聯系的。相關分析需要回歸分析來表明現象數量相關的具體形式,而回歸分析則應該建立在相關分析的基礎上。依靠相關分析表明現象的數量變化具有密切相關,進行回歸分析求其相關的具體形式才有意義。在相關程度很低的情況下,回歸函數的表達式代表性就很差。,回歸分析與相關分析,基本知識,數據分析培訓,(1)按自變量的多少分簡單(一元)回歸:自變量只有一個。例y=a+bx一元回歸方程復(多元)回歸:自變量為2個或2個以上。例y=0+1x1+2x2+nxn(2)按回歸方程式的特征分線性回歸:因變量為自變量的線性函數。例y=a+bx一元線性回歸方程非線性回歸:因變量為自變量的非線性函數。例,回歸分析種類,基本知識,數據分析培訓,(1)確定自變量和因變量;例糧食產量(y)施肥量(x);消費支出(y)國民收入(x);(2)確定回歸方程;(3)統計檢驗;(4)預測或控制。例消費與收入的回歸方程:y=a+bx=200+0.15x已知x確定y:估計或預測已知y確定x:控制,回歸分析步驟,基本知識,數據分析培訓,即:一元線性回歸分析或直線回歸分析是回歸分析中最簡單最基本的一種。自變量只有一個,所擬合的回歸方程實際上就是直線方程。在現象互為根據的情況下,可以有兩個回歸方程y倚x的方程和x倚y的方程。根本任務是設法在分散的具有線性關系的相關點之間配合一條最優的直線,以表明兩變量之間具體的變動關系,并可以據以進行預測等。表現形式:y=a+bx,簡單線性回歸分析,基本知識,數據分析培訓,首先:確定變量間是不是確實存在大致的線性相關關系作相關圖、計算相關系數第二:就是擬合直線方程:確認參數a、b第三:預測自變量,簡單線性回歸分析步驟,基本知識,數據分析培訓,假如有以下資料:某企業上半年產品產量與單位成本的資料,以產量為自變量,單位成本為因變量擬合直線回歸方程。,案例,數據分析培訓,作相關圖:,從相關圖上可以看出產量與單位成本間存在相關關系,案例,數據分析培訓,計算相關系數,顯然說明產量和單位成本之間存在高度負相關。,案例,數據分析培訓,擬合直線方程:已知產量和單位成本之間存在高度的相關關系,那么我們完全可以先把直線回歸方程的一般形式寫出來,即,式中:a是直線的截距;b是直線的斜率,即回歸系數;yc表示因變量y的估計值。,a和b是方程中待定的參數,只要確定了參數就可確定方程的具體形式,因此參數的確定是關鍵的關鍵。確定參數的方法主要用的是“最小二乘法”。,案例,數據分析培訓,最小二乘法(最小平方法)求參數ab:1、最小二乘法的原理:使擬合的直線上的點到實際值點的距離平方和最小,即所謂的yc到y的“離差平方和最小”,yc為擬合曲線上據以推算的估計值,y為實際值。,例如:,擬合直線,實際值,案例,數據分析培訓,由前面的例子:,回歸方程為:77.371.82,案例,數據分析培訓,77.371.82,a=77.37即是回歸方程與y軸的縱截距;b=1.82,即回歸系數為負值,表明產量和單位成本呈負相關,回歸直線向右下傾斜;它也表明產量每增加1千件,單位成本降低1.82元,即產量越大單位成本越低。,77.37,看圖:,理解:,案例,數據分析培訓,由回歸方程,我們即可預測當產量變化時,相對應的單位成本的值。假定產量為6千件時,單位成本為多少元?已知:x=6,代入回歸方程77.371.82中,得77.371.82666.45(元)即:產量為6千件時,單位成本為66.45元。同理,可以預測當產量為6.5、8、8.2千件等等時的單位成本。,案例,數據分析培訓,用Excel進行一元回歸分析,使用INTERCEPT和SLOPE函數使用LINEST函數(還可以給出估計標準誤差、判定系數等數值)使用數據分析工具用FORECAST函數預測用TREND函數預測,工具,數據分析培訓,用Excel進行多元回歸分析,使用數據分析工具用TREND函數預測,工具,數據分析培訓,六、抽樣方法,數據分析培訓,總體與個體、樣本與樣本容量,總體:在一個統計問題中,稱研究對象的全體為總體。個體:構成總體的每個成員或每個研究對象稱為個體。,樣本:從總體中抽取部分個體所組成的集合稱為樣本。樣本容量:樣本中所包含個體的個數,或樣本所含的元素個數,稱為樣本容量。常用n表示。,基本知識,數據分析培訓,總體、樣本、樣本觀察值的關系,總體,樣本,樣本觀察值,?,理論分布,統計是從手中已有的資料樣本觀察值,去推斷總體的情況總體分布。樣本是聯系兩者的橋梁。總體分布決定了樣本取值的概率規律,也就是樣本取到樣本觀察值的規律,因而可以用樣本觀察值去推斷總體。,基本知識,數據分析培訓,抽樣技術的分類,基本知識,數據分析培訓,在概率抽樣與非概率抽樣間作抉擇,基本知識,數據分析培訓,統計抽樣基本方式,簡單隨機抽樣等距抽樣分層抽樣整群抽樣,基本知識,數據分析培訓,簡單隨機抽樣,1、定義設總體中有N個單元,不加條件從中隨機抽取n個單元為樣本,每個單元都有同樣的概率被抽中的抽樣方法。,基本知識,數據分析培訓,簡單隨機抽樣的特點,優點:(1)比較容易理解和掌握;(2)抽樣框不需要其他輔助信息;(3)理論上比較成熟,有現成的方差估計公式。缺點:(1)沒有利用輔助信息;(2)樣本分散,費用較高;(3)有可能抽到較差的樣本;(4)抽選大樣本比較費時,基本知識,數據分析培訓,1、定義又稱系統抽樣,對研究的總體按一定的順序排列,每隔一定的間隔抽取一個單元的抽樣方法。抽選方法:設總體單元數為N,要抽n個單元為樣本,先計算抽樣間隔k=N/n,在1到k之間抽取一個隨機起點r,則被抽中單元的順序位置是:r,r+k,r+2k,。當N不能被n整除時,采用圓形系統抽樣方法。,等距抽樣,基本知識,數據分析培訓,沒有抽樣框時可代替簡單隨機抽樣方法簡單;不需要輔助的抽樣框信息;樣本的分布比較好;估計值容易計算。若抽樣間隔與總體的某種周期性變化一致,會得一個差的樣本;不使用輔助信息使抽樣效率不高;使用概念框時,不能預先知道樣本量;沒有一個無偏的方差估計量;當N不能被n整除時會得到樣本量不同的樣本。我們國家的國家統計局的調查多采用系統抽樣,它便于操作。,等距抽樣的特點,基本知識,數據分析培訓,分層抽樣,1、定義在抽樣之前將總體分為同質的、互不重疊的若干子總體,也稱為層。然后在每一個層獨立地隨機抽取樣本。分層抽樣示意圖,基本知識,數據分析培訓,在調查中不僅需要對總體進行參數估計,也需要對層的參數進行估計。使樣本更具代表性。便于組織管理和數據匯總對不同層可以按照不同情況和條件,具體采用不同的抽樣方法。分層抽樣可以提高估計量的精度對抽樣框的要求比較高,必須有分層的輔助信息;收集或編制抽樣框的費用比較高;若調查變量與分層的變量不相關,效率可能降低;估計值的計算比簡單隨機抽
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年心理健康教育知識考察試卷及答案
- Cytochalasin-L-生命科學試劑-MCE
- 2025年青少年心理輔導人才認證考試試題及答案
- 2025年企業戰略與競爭優勢知識考試試卷及答案
- 2025年民事法律知識考試試卷及答案
- 2025年科學技術協會職稱考試試卷及答案
- 2025年環境科學與工程行業能力測試題及答案
- 2025年地理科學專業入學考試試卷及答案
- 2025年國家心理咨詢師執業資格考試題及答案
- 《太陽系與地球科普知識:五年級地理教學教案》
- 教育事業十五五(2026-2030)發展規劃
- 2025年中醫基礎理論考試試題及答案
- 酒店入股合同協議書范本
- 外研版七年級英語上冊跨學科項目計劃
- TCCEAS001-2022建設項目工程總承包計價規范
- 思想道德與法治(湖南師范大學)智慧樹知到期末考試答案章節答案2024年湖南師范大學
- DB32∕T 4064-2021 江蘇省城鎮燃氣安全檢查標準
- 四川省瀘州市瀘縣2021-2022學年八年級下學期期末數學試題(word版只含選擇填空題答案)
- 高中信息技術會考試題(必修部分)附答案
- 小學數學命題研究
- 市質監站工程竣工驗收工作流程圖
評論
0/150
提交評論