


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
盤點:8個提高數據分析工作效率的技巧
聽起來是不是很像你的遭遇?你會不會在得出像樣的答案之前反復分析很多次?或者一遍又一遍地為類似的活動寫著代碼?如果是這樣的話,這篇文章正好適合你。我會分享一些提高效率和減少不必要的重復工作的方法。備注:請別誤會。我不是說迭代都不好。這篇文章的重點在于如何識別哪些迭代是必要的,哪些是不必要且需要避免的。什么原因導致了數據分析中的重復工作?我認為沒有加入新信息,就沒必要重復分析(后面提到一個例外)。下面這些重復工作都是可以避免的:1、對客戶問題的診斷有偏差,不能滿足需求,所以要重做。2、重復分析的目的在于收集更多的變量,而你之前認為不需要這些變量。3、之前沒有考慮到影響你分析活動的偏差或假設,后來考慮到了所以要重做。哪些迭代是必要的呢?下面舉兩個例子,一、你先建立了一個6個月后的模型,隨后有了新的信息,由此導致的迭代是健康的。二、你有意地從簡單的模型開始逐漸深入理解并構建復雜模型。上面沒有涵蓋所有可能的情況,但我相信這些例子足夠幫助你判斷你的分析迭代是不是健康的。這些生產力殺手的影響?我們很清楚一點——沒有人想在分析中出現不健康的迭代和生產力殺手。不是每個數據科學家都樂于一邊做一邊增加變量并反復運行整個分析過程。分析師和數據科學家會因為不健康迭代和喪失效率而深感挫敗,缺乏成就感。那么讓我們盡一切努力來避免它們吧。小貼士:如何避免不健康迭代并增加效率?技巧1:只關注重大問題每個組織都有很多可以用數據解決的小問題!但雇一個數據科學家的主要目的不在于解決這些小問題。好鋼要用在刀刃上,應該選取3到4個對整個組織影響最大的數據問題交給數據科學家來解決。這些問題一般具有挑戰性,會給你的分析活動帶來最大杠桿(或者收獲滿滿或者顆粒無收,想象一下借貸炒股)。當更大的問題沒被解決時,你不應當去解決小問題。聽起來沒什么,但實際上很多組織都沒做好這一點!我看到很多銀行沒用數據分析去改善風險評分,而是去做市場營銷。有些保險公司沒用數據分析提升客戶留存率,而是試圖建立針對代理機構的獎勵計劃。?技巧2:一開始就創建數據分析的演示文稿(可能的布局和結構)我一直這樣做并且受益匪淺。把分析演示稿的框架搭起來應該是項目啟動后的第一件事。這聽起來或許有悖常理,然而一旦你養成這個習慣,就可以節省時間。?如何搭框架呢?你可以用ppt、word、或者一段話來搭框架,形式是無關緊要的。重要的是一開始就要把所有可能情況列出來。例如,如果你試圖降低壞賬沖銷率,那么可以像下面一樣布局你的演示文稿:接下來,你可以考慮每個因素如何影響壞賬沖銷率?例如,由于給客戶增加了信用額度導致銀行的壞賬沖銷率增加,你可以:首先,確定那些信用額度沒被增加的客戶并沒有導致此次壞賬沖銷率增加。下一步,用一個數學公式來測量這個影響。一旦你把分析中的每一個分支都考慮到了,那么你已經為自己創造了一個良好的起點。技巧3:事先定義數據需求數據需求直接源于最后的分析結果。如果你已經全面地規劃了要做哪些分析、產生什么結果,那么你將知道數據需求是什么。這里有幾個提示來幫助你:?試著賦予數據需求一個結構:不單是記下變量列表,你應該分門別類地想清楚分析活動需要哪些表格。以上面增加壞賬沖銷率為例,你將需要客戶人口統計表,過往市場營銷活動統計表,客戶過去12個月的交易記錄,銀行信貸政策變更文件等資料。?收集你可能需要的所有數據:即使你不是100%肯定是否需要所有的變量,在這一階段你應該把所有數據都收集起來。這樣做工作量大一些,但是與在以后的環節增加變量收集數據相比,還是更有效率一些。?定義您感興趣的數據的時間區間。?技巧4:確保你的分析可重現這個提示聽起來可能很簡單——但初學者和高級分析人員都難以把握好這一點。初學者會用Excel執行每一步活動,其中包括復制粘貼數據。對于高級用戶,任何通過命令行界面完成的工作都可能不可重現。同樣,使用記事本(notebook)時需要格外小心。你應該克制自己修改以前的步驟,尤其是在前面的數據已經被后面的步驟使用的情況下。記事本在維護這種涉及前后數據勾稽關系的數據流方面表現地非常強大。但是如果記事本中沒維護這種數據流,它也會非常沒用。?技巧5:建標準代碼庫沒必要為簡單的操作一次又一次重寫代碼。它不僅浪費時間,還可能會造成語法錯誤。另一個竅門是創建常見操作的標準代碼庫并在整個團隊中共享。這將不僅確保整個團隊使用相同的代碼,而且也使他們更有效率。?技巧6:建中間數據集市很多的時候,你會反復需要同一批信息。例如,你將在多個分析和報告中用到所有客戶信用卡消費記錄。雖然你可以每次都從交易記錄表中提取,但是創建包含這些表的中間數據集市,可以有效節省時間和精力。同樣,市場營銷活動的匯總表也沒必要每次都查詢提取一次。?技巧7:使用保留樣本和交叉驗證防止過度擬合很多初學者低估了保留樣本和交叉驗證的強大。很多人傾向于認為只要訓練集足夠大,幾乎不會過擬合,因此沒必要交叉驗證或保留樣本。有這種想法,往往會在最后出岔子。不單我這樣說——可以看一下Kaggle上任意競賽公開或非公開的排行榜。你會發現前十名中有些人不再過擬合時他們的排名就不再下降了。你可以想象這些都是高級數據科學家。?技巧8:集中一段時間工作并且有規律地休息對于我來說,最佳的工作狀態是集中利用2-3小時解決一個問題或項目。作為一名數據科學家,你很難同時完成多項任務。你需要以自己的最佳狀態對待一個單獨的問題。對于我來說,2-3小時的時間窗
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄭州航空工業管理學院《生產運營管理》2023-2024學年第二學期期末試卷
- 貴州護理職業技術學院《計算機圖像與視覺基礎》2023-2024學年第二學期期末試卷
- 集寧師范學院《中醫護理學》2023-2024學年第二學期期末試卷
- 魯東大學《有機硅高分子》2023-2024學年第二學期期末試卷
- 同濟大學浙江學院《自然語言處理基礎》2023-2024學年第二學期期末試卷
- 太原師范學院《汽車展示設計》2023-2024學年第二學期期末試卷
- 貴陽人文科技學院《舞臺表演藝術與實踐(四)》2023-2024學年第二學期期末試卷
- 安順職業技術學院《工程招投標與合同管理》2023-2024學年第二學期期末試卷
- 北京政法職業學院《學前教育科學研究方法》2023-2024學年第二學期期末試卷
- 哈爾濱遠東理工學院《三維構成基礎》2023-2024學年第二學期期末試卷
- 2025年北京市豐臺區九年級初三一模道德與法治試卷(含答案)
- 快遞員(初級)模擬試題含答案
- 《建筑工程設計文件編制深度規定(2016版)》
- 土地政策學終結性考核-國開(SC)-參考資料
- 十字頭零件的加工工藝規程及精車外圓工裝夾具畢業設計(機械CAD圖紙)
- 含公式新財務報表模板 包括:三大報表、所有者權益變動表、和相關指標計算
- 移動通信終端NS_IOT測試解析
- 臨床免疫學檢驗技術(共64頁).ppt
- 股東大會律師見證的法律意見書范本
- 干灰庫高大模板支撐系統施工專項方案
- 2015通用安裝定額解釋完整版
評論
0/150
提交評論