基于數據挖掘的鐵路運輸需求預測方法_第1頁
基于數據挖掘的鐵路運輸需求預測方法_第2頁
基于數據挖掘的鐵路運輸需求預測方法_第3頁
基于數據挖掘的鐵路運輸需求預測方法_第4頁
基于數據挖掘的鐵路運輸需求預測方法_第5頁
已閱讀5頁,還剩1頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

基于數據挖掘的鐵路運輸預測方法研究基于數據挖掘的鐵路運輸預測方法研究 李彥 中鐵第四勘察設計院集團有限公司線路站場研究處 湖北 武漢 430063 摘要 摘要 隨著鐵路部門信息化建設逐步進行 數據的大量積累使得采用數據挖掘方法對鐵路 運輸需求進行預測成為可能 然而 因為缺乏系統而完整的知識發現方法 數據挖掘方法 在鐵路決策系統中很少應用 有鑒于此 本文通過系統分析 數據預處理 數據挖掘 知 識提取四個階段 提出了預測鐵路運輸需求的數據挖掘模型 該模型闡述了如何在鐵路運 輸數據庫中進行知識發現的標準化過程 最后案例研究結果表明 本文所提出方法能對鐵 路運輸需求進行準確有效的預測 關鍵詞 關鍵詞 鐵路需求預測 數據挖掘 知識發現 高效的管理離不開周密而詳盡的計劃 各行各業的國營或私營企業 為了做到有效管 理 必需對企業未來運營壞境及其相關因素做出預測 對于鐵路管理者而言 預測鐵路運 輸需求的增長狀況 發掘出影響某些起訖點之間需求和供給能力的主要因素 是做出正確 決策的首要基礎 從而搭建必要的設備和人力平臺以滿足將來的運輸情況 同時 無論是 鐵路管理部門的宏觀戰略抉擇還是站段間的局部業務決策 都需要對鐵路站場之間的貨物 流量關系進行預測 流量關系是鐵路業務存在的基礎 因此 研究系統性的模型和局部性 的程序來定性 定量分析上述流量關系 能為鐵路部門提供有效的決策支持 本文嘗試建立基于數據挖掘的鐵路需求預測標準化方法 從而能夠輔助鐵路資源的分 配和設計 該預測方法能為鐵路管理者提供大量短期決策 同時也能為編組 運輸和站場 容量等長遠投資決策提供重要輔助 1 鐵路需求預測鐵路需求預測 鐵路運輸容量大且高效節能 主要適于中長期 遠距離運輸 相較于公路運輸 發生 意外 搶劫 盜竊的概率較低 其安全性更高 因此 在世界各地 鐵路是一種重要的客 運 貨運手段 而規劃和調控鐵路運輸活動 需要對鐵路運輸需求做出準確的預測 現有 預測方法已有300多種 歸納起來主要為定性預測和定量預測兩種 1 其中 定性預測技術 也稱為 主觀 或 基于標準判斷 的技術 主要是通過人力 來歸納和推理的方法 定量預測技術 是指通過數學方法對歷史數據進行計算 分析 找 出鐵路需求的變化規律和特征 從而對未來數據作出合理的判斷 常見的鐵路需求定量預 測方法主要有 指數平滑法 回歸分析法 彈性系數法 灰色系統法 模糊邏輯 人造神 經網絡 ANN 等 2 5 使用定量預測方法必須滿足以下條件 1 有真實可靠的歷史信 息 2 信息可以被數字化且便于管理 3 數據滿足 連貫性假定 法則 即適用于 過去的假定在某種程度上同樣適用于未來的情況 2 數據挖掘數據挖掘 伴隨著信息技術的不斷進步 數據庫中的知識發現 KDD Knowledge Discovery and Data Mining 技術被廣泛應用于科學 工業和商業等領域 數據挖掘 作為數據庫中知 識發現特定階段的通俗表達 在廣泛參考各相關領域研究成果的基礎上 于1989年召開的 第11屆國際人工智能聯合學術會議 IJCAI 上首次提出了KDD的概念 從數據庫獲取知識 并得到了正式承認 當今最流行的定義是由Fayyad于1996年提出的 KDD的過程 是從 大量數據中提取出可信的 新穎的 有效的并能被人理解的知識的高級處理過程 數據挖 掘的任務主要有關聯分析 聚類 分類 預測 時序模式等 6 1 關聯分析 association analysis 關聯規則挖掘是由Rakesh Apwal等人首先提出 關聯是指兩個或兩個以上變量的取值之間存在某種規律性 數據關聯是數據庫中存在的一 類重要的 可被發現的知識 而關聯分析的目的就在于找出數據庫中隱藏的關聯網 一般 用支持度和信任度兩個閥值來度量關聯規則的重要性 通過引入興趣度 相關性等參數 使得所挖掘的規則更符合實際需求 常見算法有 Apriori算法及其改進 FP growth算法等 2 聚類 clustering 是指把數據按照相似性原則劃分為若干類別 同一類中的數據 彼此相似 不同類中的數據差異顯著 聚類分析是建立宏觀概念 發現數據分布模式及數 據屬性之間的相互關系的基礎上 聚類的算法大體可分為以下幾類 劃分法 層次法 基 于密度法 基于網格法和基于模型法等 常見的聚類算法有 k means k最近鄰 k modoid DBSCAN BIRCH CURE k prototypes CLARANS CLIQUE等 3 分類 classification 即找出一個類別的概念描述 該描述能代表這類數據的整體 信息 內涵描述 并用其構造模型 一般用規則或決策樹模式表示 分類是利用訓練數據 集通過一定的算法而求得分類規則 可被用于規則描述和預測 算法主要包括 決策樹 decision tree 法 ID3法 SLIQ法 Bayes分類法 神經網絡和支持向量機等 4 預測 predication 是指利用歷史數據找出變化規律 建立模型 并由此對未來 數據的種類及特征進行預測 預測關心的是精度和不確定性 通常用預測方差來度量 用 于預測的方法主要有線性回歸 非線性回歸 神經網絡 支持向量回歸機等方法 5 時序模式 time series pattern 是指通過時間序列搜索出的重復發生概率較高的 模式 與回歸一樣 它也是利用己知的數據預測未來值 其區別在于變量所處的時間不同 現代社會中 通過對歷史事件發生規律的探求 進而預測未來演變趨勢的運用越來越多 所以深入開展有關數據挖掘的研究是十分必要的 3 鐵路需求預測的數據挖掘方法鐵路需求預測的數據挖掘方法 3 1 數據挖掘方法總體思路數據挖掘方法總體思路 考慮到數據庫中知識發現的固有復雜性 該方法以行為計劃為基礎 即根據每個KDD 應用目標 知識發現的每個分步驟在執行前先指定相應的計劃 本文的知識發現方法分為 系統分析 數據預處理 數據挖掘 知識提取四個階段 圖1 其中每個階段都可以為前 一階段提供反饋 也就是說后續階段的結果是前面階段調整和優化的依據 本文中所采的 數據挖掘方法是基于交互性 反復迭代的過程 即根據每步的結果 KDD分析師可以返回 至任何一步搜索和調整前面的過程從而得到更優的結果 為了做到這一點 本方法需要對 通過詳細的文檔記錄每個實施方案并對其結果進行估計 為了達到該目的 推薦采用基于 軟件成熟度模型 CMM 中的支持基線推理的文檔模型 來輔助完成不同情況下的程式選 擇 并且上述方法同樣適用于整個項目的文檔管理 并且這個跌代過程的向優收斂性是由 以下兩方面保證的 其一 由KDD分析師基于目標對所選用算法 數據甚至數據挖掘模型 和過程進行調整和優化 其二 基于目標的算法本身的自優化 下面對上述的四個過程分 別予以闡述 系統分析 數據預處理 數據挖掘 知識提取 圖圖1 知知識識發發現現過過程程圖1 知識發現過程 3 2 數據挖掘方法不同階段數據挖掘方法不同階段 1 系統分析 這是本方法第一階段 主要任務是定義用于KDD過程中的問題類型 和應用范疇 在該過程中 數據挖掘參與者 問題描述 要解決和改善的目標和每個過程 的目標及其改進都將被予以確定 如圖2中所示 期限表示數據挖掘方法應用的截止時間 而圖中循環箭頭表示 其中每一個步驟的執行結果都將作為反饋對之前的方法和結果的調 整提供有效的參照 例如 在確定挖掘目標的時候如果十分困難 則KDD挖掘師應 領域 專家以及決策者討論前一階段對于問題的描述是否清楚等 確定參與者 問題描述 確定挖掘目標 期望 圖圖2 系系統統分分析析階階段段 期限 圖2 系統分析階段 2 數據預處理 該階段包括為數據挖掘獲取 組織 處理和預備數據等過程 是數 據挖掘過程中最基本的階段 它包括對應于數據挖掘算法的錯誤數據校正 數據格式的調 整 如圖3所示 在這個過程中 一般數據清洗選擇和清洗過程是必須的過程 而其他過程 是根據問題和數據特點的可選過程 數據選擇 數據清洗 數據編碼 標準化 圖圖3 數數據據預預處處理理階階段段 數據強化 圖3 數據預處理階段 3 數據挖掘 在通過系統分析確定挖掘目標 并對數據按照要求進行預處理后 需 要選擇適合的數據挖掘技術以保證所獲得結果的精準性 數據挖掘是本方法的主要階段 其主要作用是從數據中發現新穎 有效的知識 因此 很多學者認為數據挖掘和KDD過程 是相互結合的 甚至是同義的 該階段主要操作如圖4所示 從本部分的循環可以看出 數 據挖掘工具和方法的選擇是這部分的核心所在 數據劃分 工具或方法選擇 數據挖掘 圖圖4 數數據據挖挖掘掘階階段段 圖4 數據挖掘階段 4 知識提取 該階段包括對前期數據挖掘得出知識模型的簡化和表達 通常 該過 程由KDD專家和領域專家來評價所得結果 并對將來的決策提供一定的輔助 這也是本方 法的最后階段操作如圖5所示 知識簡化 知識表達 圖圖5 數數據據后后處處理理階階段段 圖5 知識提取階段 4 案例研究案例研究 方法應用方法應用 針對本文所介紹方法 選取湖北省婁邵線年貨運量較大的五個站的發貨量數據如表1所 示 以評價該方法在鐵路部門運輸需求預測中的有效性 由于本文方法采用迭代式 所以 當應用技術不同時 某些操作會被多次重復 例如算法中參數的多次迭代優化以及方法的 測試及選擇 根據分析預測目標 首先確定KDD過程的參與者婁底站貨運部 并隨之提 出相應車站在決策方面所面臨的問題即不能準確的預測未來的貨運需求 然后限定目標即 預測婁邵線未來的貨運需求 給出預測模型的期望定義為誤差幅度不超過20 其中誤差 幅度是指平均絕對百分誤差 MAPE 及平均絕對誤差 MAD 本文數據預處理階段為 選擇2000 2004年的歷史數據為輸入 有效數字保留1為小數 單位為萬噸 以2005年的數據為目標構造回歸模型 并用2006年數據為驗證 以選擇最 優的算法 其目的在于 將來可以使用選擇的最優算法對2007 2008年的年貨運量進行預 測 而對于數據挖掘階段 數據挖掘工具選用Matlab軟件 挖掘方法選用線性回歸模型 BP神經網絡及支持向量回歸機 使用由SteveGunn提供的SVM工具箱 其中BP神經網絡 使用三層結構 隱結點選擇為10個 其變換函數選取tansig型函數 對于支持向量回歸機 核函數選擇RBF函數 多次迭代后選擇參數sigma為1000和C為100 預測結果如表1所示 其中第八列06表示06年的實際貨運量 第九 十 十一列分別為線性回歸 BP神經網絡及 支持向量回歸機方法時06年的預測值 預測結果的MAPE及MAD如表2所示 由此可知BP 神經網絡的預測效果最為理想 知識提取階段及原因分析 貨運數據其線性程度比較差 對于支持向量回歸機因為其輸入參數較少所以精確度也不高 而BP神經網絡十分適合非線 性回歸所以具有較好的效果 最后值得指出的是 案例研究的目標不僅是對各種技術性能 的比較 更是文章所述方法的采用 此外 由于數據選擇和準備時間及使用技術的獨立性 數據預處理階段在整個KDD過程中最為耗時 約占總間的70 表1 婁邵線各站歷年完成客貨運量及06年預測值對比 單位 萬噸 站名站名 0000010102020303040405050606RGRGBPBPSVMSVM 邵陽北邵陽北 63 14137 23954 540 548 2 26 340 553 9 邵邵 東東 57 845 835 543 665 958 754 0 52 358 778 1 雙板橋雙板橋 45 640 125 73135 844 549 4 39 144 559 3 婁婁 底底 264 8300 7331 5359358454 8505 3 453 5454 8603 2 表2 不同預測方法的MAPE及MAD對比 方法線性回歸支持向量回歸機BP神經網絡 MAPE 19 119 911 1 MAD 34 421 416 95 5 結論結論 數據挖掘方法在各個領域已得到快速發展 但該方法在鐵路行業的應用卻較為少見 體系化 標準化的可應用于鐵路需求預測層面的數據挖掘方法 就更為少見 本文提出的 確定標準化模型 包括嚴格的 系統化方法 具有標準化形式和分階段特性 經過案例研 究證明 該方法能有效預測鐵路運輸需求 為我國鐵路運輸需求預測研究提供了新的思路 參考文獻 1 吳清烈 蔣尚華 預測與決策分析 M 南京 東南大學出版社 2004 2 王慧晶 基于灰色預測模型的鐵路客運量預測研究 J 鐵路運輸與經濟 2006 28 6 79 81 3 殷英

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論