




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
隨著改革開放的不斷深入,我們國家的社會和經濟都有了前所未有的發展。因為各種經濟資料的復雜特性,常規的統計資料只能對其作簡單的數學上的解析,很難將其深度的價值發掘出來。目前,人們對其進行的開發和使用的方式比較簡單,已經無法適應現代社會對其使用的需求。數據挖掘技術是一種由科學技術發展所產生的一種新的統計手段,它的優勢是可以將數據的水平和垂直兩方面進行利用,大大地擴展對經濟數據進行利用的領域,因此可以獲得更多的、有深度的、有意義的信息,為社會經濟發展和政策的制訂提供更加真實、更加有效的基礎。一、數據挖掘技術的含義一般而言,數據挖掘技術指的是對大量的數據信息展開細致的建模,進而發掘出具有實用意義的信息的一個過程。所以數據挖掘技術歸根結底就是一個由神經網絡、機器學習機數據統計等組成的,可以隨社會的發展而持續改變的學科。面對海量的數據,用常規的統計學方法進行處理不僅不能有效地處理這些海量的信息,而且還可能導致一些統計學上的錯誤。而數據挖掘技術就是將所獲得的信息,從其中發掘出一些具有實際應用前景的信息。而對于數據的高度解析性,更能體現出它的實用價值。數據發掘技術是一個將數據進行高效轉化的方法,它的具體步驟可以歸納為:從數據的收集到數據的發掘到數據的分析。其中,數據挖掘技術發揮著重要的作用,其具有多種的功能,包括對模型的預測、數據的類聚或者分類等,以及聚焦檢測、銜接分析、關聯規則等技術手段。所以它具有許多特性和功能,首先,它可以對海量的數據進行高效的分析;二是它可以從大量的數據中找到有用的信息;三是能夠對資料中的有用資訊加以剖析與判斷;四是能夠即時、迅速地反映某些功效及功能的資訊。資料開采的一般程序為:資料準備、資料挖掘、資料分析。在這種全流程中,對資料的發掘是最重要的。其主要的作用是聚類、預測、分析等。從其功能和特征上分析,該方法的優勢在于:可以實現對重要數據的自動化發現;具有對海量數據的能力;其反應速度快,效率高;可以高效地對資料資料進行解析判斷,勾畫出過往與將來。二、數據挖掘技術在經濟統計工作中的應用優勢(一)綜合應用能力強資料探勘不是一種具體執行程序,而是一種整體作業體系,以滿足使用者的資訊需要為特點。在我國,經濟持續快速發展的今天,各行業的發展離不開經濟的發展,因此,在我國的發展中起到至關重要的作用。然而,在現實生活中,各種管理部門所擁有的權限、管理的方式和領域都存在著很大的差異,所以他們對經濟統計數據的需求也存在著很大的差異,所以這就對經濟統計系統的要求更高。不僅必須滿足管理層對資料的需求,而且必須有能力把統計資料轉換成各種表達方式。由于其具有的廣泛性,使得數據挖掘技術在廣泛、廣度上得到進一步的提升。(二)實用性很強數據采掘技術是一項深度處理技術,它在一定程度上具有目標清晰的特點。在經濟統計與運用的進程中,數據挖掘技術能夠根據用戶的需要,對長期積累起來的大量數據展開深度的加工,它的加工方式有兩種:一種是對大量的數據進行高效的管理,從經濟數據的管理視角出發,在具體的應用中,利用對數據進行的統計與歸類,對大量混亂的數據庫中的信息進行科學性、系統性的處理,從而達到提高數據的效率的目的。另一種是對已有數據的針對性進行研究,在數據統計分析的目的指導下,對原來的信息進行內容、關系和形式上的加工,以確保所得的經濟統計信息可以更好地滿足相關部門的需要。(三)技術適用性強在我國,各經濟管理機構的職能比較分散,各經濟管理機構之間的要求也不盡相同。在我國許多地區和許多經濟管理部門,其經濟管理工作仍然采用的是一種比較常規的統計方式,存在著一定的缺陷,不能有效地為經濟管理工作的全局服務。在現實工作中,往往會出現數據統計工作的重復和丟失的情況,從而對經濟數據統計工作的效率和品質產生一定的影響。建立一個集中性、綜合性的統計體系,是國家經濟行政機關迫切需要解決的問題。如果要確保經濟統計信息的準確性,再利用數據挖掘技術加以集成處理,就可以得到更精準、更豐富的數據來源。三、數據挖掘技術在經濟統計中的可行性研究(一)能為經濟統計提供有效的服務根據相關數據報告調查結果顯示,盡管數據開采技術發展的歷史并不久遠,但其在國內外的研究和運用已經處于一個比較成熟的階段。在當今世界,尤其是在經濟統計學中,人們對數據的利用也越來越重視。而數據挖掘技術之所以如此快速地發展,就是因為其為經濟統計提供高效的服務。而在數據挖掘中,數據預處理的作用也不可忽視。數據預處理是指在經濟統計工作中,需要將一些不太重要的數據去掉,對其中有用的部分進行標準化清理和篩選,以便為數據挖掘的工作做準備。(二)能夠為經濟統計的不同需要提供不同的服務當前,最常用的數據采集工具有合成型、通用型特點,以及特殊用途的數據采集工具。通過這種整合的手段,既可以為企業中的經濟體提供高效的管理報表,也可以對一般經濟組織中的數據信息進行深度挖掘。(三)建立宏觀經濟數據庫從當前形勢來看,我國絕大多數的經濟統計工作仍以應用性為主。大多數的經濟統計資料都是以一種不集中和不分散的方式存在,沒有一個很好的管理體系。在經濟統計工作中,如果在處理問題時產生錯誤,將會直接影響到資料的正確性和精確性。但是只有在構建一個國家的宏觀經濟學數據庫之后,才能找到這些問題的有效途徑。只有將數據挖掘技術與宏觀經濟學數據庫相結合,才能確保所發掘的信息的正確性和可靠性。在此背景下,將數據挖掘技術應用于經濟統計,既符合實際的需求,又為經濟政策的制訂提供準確而重要的依據。四、數據挖掘技術在經濟統計中的應用(一)預處理方法在經濟資料的統計工作中,對資料進行前處理是最基本的手段之一。由于數據挖掘是一種在提供基本信息的基礎上進行的智慧分析技術,它自身受到基本的經濟信息的制約,不能在一定程度上來取代經濟數據收集系統的作用,因此,作為數據挖掘系統數據基礎的經濟統計數據信息都應當經過預處理。目前,常用的數據清除技術有:平均法、平滑法,以及預報法。在這些方法當中,平均法屬于一種運用到現代分析技術中的模糊概念,在基礎數據中的一個數據點是空值,或是噪音數據的情況下,可以使用平均方法來進行處理,也就是,使用數據庫中的所有這個性質的已經知道的屬性的平均來彌補這個空白,從而確保數據挖掘系統可以在正常的情況下進行對基本數據的分析和整理,從而得到一個相對來說精度比較高的統計分析數據。(二)決策樹方法從當前的實際狀況來看,由于能夠快速直觀地反映出當前的狀況,所以在實際運用中,采用的最多的就是決策樹。采用這種方式,最重要的是要將決策樹構造好,一般情況下,它可以被分成兩部分:首先,使用培訓集,對一棵決策樹進行并縮減,并在此基礎上,建立一個可以進行輸出分析的模型。其次,對生成的決策樹進行有效地使用,并進行有效的分類,該方法是從樹根到樹干,再到枝干,直至達到一定的要求為止。在特定的情況下,終止分裂需要兩種情況:一種情況是某一結點上的全部資料都歸入相同的類型;另外一種情況是不存在用于重新劃分輸入資料的類別屬性。在建立一棵決策樹之后,需要按照用戶的需求來“剪枝”,以減少由于使用大量的訓練樣本而導致的結果波動。(三)遺傳算法這是一種以生物的遺傳學機制和自然選擇為基礎的一種隨機的搜尋方法,其基本思想是以具體的社會性問題為基礎,再從具體的目標中收集有關的資料,最終將這些資料中所包含的資料進行整理、分析,從而得出結論。經濟問題并不是一成不變的,而是一個發展和變化的問題,有著密切的關系,任何一種情況發生變化,其他的情況也就隨之發生變化。遵循基因算法的程序,從根源出發,我們就一步一步地往下進行探究,從中抽取出一些有用的信息,從而對整個過程展開深入的分析。這種方式就可以將經濟問題具體化、直接化,讓我們在進行問題的時候,能夠更加直接,能夠將隱藏的東西展現在我們的面前,讓我們的經濟統計工作變得更加直白、簡單。(四)神經網絡法人工神經網絡方法是一種高度仿真人類大腦對信號進行處理的智能化先進技術。就像人類的大腦活動,先將信息錄入,再進行精確的解析,再將結果呈現出來。并將其運用于經濟統計學中。神經元法為我們提供一種準確的、完整的處理經濟統計的方法,它讓我們的經濟運作模式和人在處理信息的過程很相似,都是實用化、形象化、具體化。這樣就可以在不同的工作流程中建立起不同的工作流程,以達到解決經濟數據問題的目的。(五)數據的預處理沒有高質量數據,就必定沒有高質量數據挖掘的結果。而在現實數據的挖掘過程中,因為所采集到的數據不可避免地會有缺漏、重要數據不全、不一致及包含噪音等問題,所以對數據的預處理是最重要也是最重要的一步。關于資料的預處理,具體如下所示:1.數據清除所謂的數據凈化,就是用合適的方式,去除其中的缺陷、不一致和噪音,提高整個數據的品質。常用的幾種分析法有平均法、平滑法、預測法和頻度統計法。每一種方法所相應的現實狀況都有差異,如果數據屬于噪音數據或者是一個空值,那么所要采取的方式就是均值法或者是光滑法。與均值法相比,光滑法強調的是將k個不為空的數據取權重平均值來代替(均值法以k個不為空的數據的平均值來代替)。利用預報方法對有噪音的資料或空值進行最大概率的估計;預報方法是對資料缺陷進行分析的方法。2.資料整合一般來說,這些資料都來自于來自于各種資料來源,而在實際處理、分析及應用的時候,就需要將這些資料整合成一個完整的資料,這就是資料整合的過程。在現實生活中,統計部門首先要通過各個地方統計局,對經濟數據進行大量的采集,接下來要進行的就是數據整合,這就必然會產生一些問題,比如,如何確定來自不同數據源的數據可以相互匹配。如果一個資料的特性可以從其他資料庫中的資料的特性推斷出來,那么就會產生一個資料的特性;此外,也就是資料的碰撞乃至排除,這個問題是由于資料來源的資料會因為彼此間的差異而產生互相排斥。3.數據轉換用某種方法把資料轉換為等價的、適用于資訊發掘的資料,這就是資料轉換,它的內容主要包含資料的正常化與一般化兩個方面。對資料進行歸一化處理,主要有零均值歸一化、極大極小歸一化等;而資料概括,就是以較高層面的觀念代替較低層面的資料。4.資料與觀念的分散與分類實際中的資料是連續的,目前所知的方法中,能夠對連續資料進行有效分析的并不多。資料的離散性就是用一個有標記的資料取代一個真實資料,實現資料的解連續性。在概念層面上,提出一種基于信息層級的概念來降低信息采集規模的方法。五、在數據挖掘中發揮互聯網大數據的作用隨著互聯網的普及,人類活動的范圍得到了前所未有的拓展,海量信息充斥在我們生活之中,如何挖掘其中的潛在價值,已成為每個人都面臨的難題。在大數據時代下,數據量爆炸式增長,海量數據中蘊藏著巨大價值。通過對大數據進行分析和挖掘,能夠讓企業對市場和用戶有更好的理解和把握。在互聯網大數據環境下,每個人都是大數據的一部分,無論是企業、用戶、政府甚至是普通大眾,都能在海量信息中發現一些自己不知道的東西。面對大數據時代帶來的巨大機遇和挑戰,如何有效地利用大數據來解決企業發展中存在的問題成為了眾多企業需要面對的現實問題。數據挖掘技術是從大量數據中發現新知識、新規律并將其轉化為有用信息或決策經驗的一種技術。通過挖掘互聯網大數據,不僅能夠讓人們獲取到更多有價值的數據信息,還能為企業提供更多決策輔助。對此就可以從網站訪問痕跡入手,網站訪問是互聯網數據采集過程中最為常見的數據采集方式,通過對網站訪問記錄進行分析,就可以從中發現用戶可能存在的規律。例如,用戶通過搜索引擎在互聯網上搜索過產品、服務、品牌等信息。從訪問痕跡中可以分析出用戶訪問網站時可能出現過哪些關鍵詞或使用哪些關鍵詞進行
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合同模板項目管理與服務合同(合同范本)
- 2024年四川省委網信辦遴選公務員考試真題
- 2025年二手奢侈品鑒定技術標準與交易規范變革報告
- 健身玩具專賣店行業跨境出海項目商業計劃書
- 人造板餐桌旋轉設計創新創業項目商業計劃書
- 新型泌尿系統內服藥品行業跨境出海項目商業計劃書
- 高原登山訓練營行業跨境出海項目商業計劃書
- 抗菌紡織品添加劑行業深度調研及發展項目商業計劃書
- 大熊熊小學題目及答案
- 2025年九年級中考前沖刺~八年級下冊常考句默寫集訓(4)(含答案)
- 2024年專利代理人專利法律知識考試試卷及參考答案
- 高級會計師評審專業技術工作業績報告
- 國開形成性考核00474《工程經濟與管理》形考任務(1-12)試題及答案
- 風險分級管控與隱患排查治理管理制度
- 膿毒血癥患者的護理查房
- 山東省臨沂市2024年中考生物試卷
- 靜脈輸血規范課件
- 中小學教學視導量化考核表
- 2024-2030年中國高速公路服務區行業市場發展分析及前景趨勢與投資價值研究報告
- 2023年山東省濟南市中考道德與法治真題(原卷版)
- 技術開發合同免稅政策
評論
0/150
提交評論