




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、引言在煉焦生產過程中,焦爐集氣管壓力是煉焦生產中的重要參數,它的穩定性直接影響著焦爐的使用壽命和焦碳的生產。焦爐集氣管壓力控制系統是一個具有強干擾、多耦合、時變、非線性的復雜多變量系統,利用傳統的建模與自動控制手段往往難以奏效,因此課題中使用不依賴系統精確數學模型的模糊控制。但現在模糊控制中的控制規則一般都是通過專家或操作人員的經驗總結形成的,存在一定的主觀性和隨意性。使用數據挖掘的方法從生產過程的大量的數據中分析出模糊控制規則,這個方法不僅為模糊控制規則的生成提供了一個嶄新的思路,而且得到了一定的控制效果。隨著數據挖掘(dm)技術的發展和完善,為模糊控制規則的獲得提供了一條嶄新的途徑。可以運
2、用數據挖掘中的聚類分析算法來獲取控制焦爐集氣管壓力的模糊規則。聚類算法是通過對變量的比較、把具有相似特征的數據歸為一類。因此,本課題就采用聚類的方法來建立及其關壓力模糊控制模型, 通過對運行時控制集氣管系統壓力的數據進行聚類,同一類中的數據中必定有潛在規律,則此可生成可以控制集氣管壓力的模糊控制規則,從而豐富模糊控制規則表。通過聚類以后,數據集就轉化為類集。在類集中同一類數據具有相似的變量值,不同類之間的變量值不具有相似性。這些類不是事先定義好的,而是通過聚類算法采用全自動方式獲得。焦爐集氣管壓力控制系統是一個具有強干擾、多耦合、時變、非線性的復雜多變量系統,一個集氣管壓力產生波動時,就會引起
3、另一個集氣管壓力的波動,當波動較大時,就會造成整個集氣管系統拉鋸,出現振蕩現象。對多輸入多輸出系統中輸入與輸出之間相互影響較強的,不能簡單地化為多個單輸入單輸出系統,此時必須考慮到變量間的耦合,以便對系統采取相應的解耦措施后再實施有效的控制。本課題采用模糊控制與數據挖掘相結合,在不需要已知對象模型情況下求出耦合度,再進行集氣管壓力控制模型的耦合分析和解耦設計。最后通過在matlab環境下仿真,驗證本課題所提出的生成模糊解耦控制規則方法的合理性、可行性及其優越性。1 緒論煉焦工藝控制就是為了保證焦炭的產品質量,增加荒煤氣的回收率,減少環境污染,提高經濟效益。荒煤氣是炭化室中的煤料在高溫干餾下產生
4、的煤氣,因尚未經凈化處理,因此在習慣上稱為荒煤氣或粗煤氣。荒煤氣回收就要依靠荒煤氣導出設備,它包括:上升管、橋管、水封閥、集氣管、吸氣彎管、吸氣管、氨水噴灑系統等1。集氣管只是荒煤氣導出系統的一部分。如圖1所示。集氣管是用鋼板焊接而成的圓管或槽形結構,沿整個焦爐縱向置于爐柱托架上,用以匯集個炭化室的荒煤氣、冷凝焦油和氨水。圖1荒煤氣導出系統1fig.1 the system of exporting rough gas1.1 數據挖掘概述1.1.1 數據挖掘的基本任務隨著數據庫技術的迅速發展以及數據庫管理系統的廣泛應用,人們積累的數據越來越多。目前的數據庫系統可以高效地實現數據的錄入、查詢、統
5、計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識的手段,導致了“數據爆炸但知識貧乏”的現象。數據挖掘就是為滿足這種要求而產生并迅速發展起來的,可用于開發信息資源的一種新的數據處理技術。數據挖掘技術是多學科交叉的新型技術,它主要基于統計學、人工智能、機器學習等技術,高度自動化地分析數據,做出歸納性的推理,從中挖掘出潛在的模式,并對未來情況進行預測,以輔助決策者評估風險、做出正確的決策。數據挖掘的任務就是發現隱藏在數據中的模式/知識4。數據挖掘任務一般可以分為兩類:描述和預測。描述性挖掘任務以簡潔概要的方式描述數據,并提供數據的有趣的一般
6、性特征;預測性挖掘任務對當前數據進行分析,建立一個或一組模型,并試圖預測新數據集的行為。通常情況下,為了適應不同用戶的不同需求和應用,數據挖掘系統要能夠挖掘多種類型的模式2。1.1.2 數據挖掘的挖掘步驟 數據數據挖掘系統可以大致分為三層結構3第一層是數據源,包括數據庫、數據倉庫。數據挖掘不一定要建立在數據倉庫的基礎上,但如果數據挖掘與數據倉庫協同工作,則將大大提高數據挖掘的效率。 第二層是數據挖掘器,利用數據挖掘方法分析數據庫中的數據,包括關聯分析、序列模式分析、分類分析、聚類分析等。第三層是用戶界面,將獲取的信息以便于用戶理解和觀察的方式反映給用戶,可以使用可視化工具。數據挖掘的過程可粗略
7、的分為如下的幾步5, 6:1)問題定義:數據挖掘是為了在大量數據中發現有用的令人感興趣的信息,因此發現何種知識就成為整個過程中第一個也是最重要的一個階段。2)數據準備:又可分為三個子步驟:數據選取、數據預處理和數據變換。3)數據挖掘:基本步驟,使用智能方法提取數據模式。4)結果解釋和評估:根據某種興趣度度量,識別表示知識的真正有趣的模式,并使用可視化和知識表示技術,向用戶提供挖掘的知識。1.1.3 數據挖掘的應用和發展數據挖掘強調的是大數據量和算法的可伸縮性,它是一門很接近實用的學科,一出現就被許多部門所應用。目前,數據挖掘的研究領域已遍及的行業包括金融業、電信業、網絡相關行業、零售商、制造業
8、、醫療保健、制藥業及科學領域等。例如:數據挖掘在天文學上有一個非常著名的應用系統:skicat(sky image cataloging and analysis tool),它是加州理工學院噴氣推進實驗室與天文科學家合作開發的用于幫助天文學家發現遙遠的類星體的一個工具;數據挖掘所能解決的典型商業問題包括:數據庫營銷、客戶群體劃分、背景分析、交叉銷售等市場分析行為,以及客戶流失性分析、客戶信用記分、欺詐發現等;在internet上的應用包括三種:在搜索引擎上對文檔進行自動分類、幫助尋找用戶感興趣的新聞以及利用數據挖掘設計一個電子新聞過濾系統6-11。數據挖掘的應用很廣泛,但我國的數據挖掘應用尚
9、處于嘗試性的萌芽階段,企業大規模地運用數據挖掘技術尚不普遍,個別企業或部門僅零星地運用數據挖掘技術。數據挖掘的應用研究應該尋求領域的探索和擴張。在注重理論、技術研究的同時,強調實際應用研究,例如在生產控制領域中,應用數據挖掘的算法,開發出適合工業控制的系統等。1.2 焦爐集氣管壓力控制系統研究現狀及發展1.2.1 集氣管壓力控制系統的定義焦爐集氣管壓力控制系統是一個具有強干擾、多耦合、時變、非線性的復雜多變量系統,利用傳統的建模與自動控制手段往往難以奏效,因此課題中使用不依賴系統精確數學模型的模糊控制。集氣管煤氣系統簡圖如圖2所示37。圖2 集氣管煤氣系統簡圖fig. 2 the simply
10、 figure of air-collecting pipe system1.2.2 集氣管壓力控制系統的研究現狀及發展焦炭的生產過程稱為煉焦。煉焦工藝控制就是為了保證焦炭的產品質量,增加荒煤氣的回收率,減少環境污染,提高經濟效益。集氣管壓力是焦爐生產中重要的工藝參數,在焦化生產過程中,它因受多種因素:出焦、裝煤、換向、煤氣發生量、工藝設備及管道阻力等的影響而常常發生波動。對焦爐集氣管壓力進行控制使其穩定在生產工藝所需范圍內是保證安全生產、提高產品質量、減少環境污染、延長爐齡的重要技術措施11,12集氣管壓力是一個重要工藝指標,壓力偏高將導致焦爐炭化室壓力增高,粗煤氣從爐門等處冒出,嚴重污染環
11、境并降低化產收率;壓力偏低將使空氣進入炭化室,使粗煤氣和焦碳燃燒,焦碳灰份增加,質量下降。影響集氣管壓力的因素很多,它受到焦爐煤氣發生量、壓力調節碟閥的開度、鼓風機吸力、管道阻力、機前機后阻力等多方面因素的影響。由于集氣管與集氣管并聯,組內和組間存在負耦合關系,當并聯的兩集氣管壓力不同時,煤氣的流向會發生不同程度的改變,使高、低壓兩集氣管之間存在著自平衡的趨勢。趨于平衡的快慢因組內與組間并聯管線長度和耦合的強弱而不同。組內耦合關系強,自平衡較快,組間耦合對系統影響較大而自平衡較慢。焦爐與鼓風機串聯,存在著正耦合關系,總管壓力的變化必然導致各單集氣管壓力的相應變化。機前吸力增大使煤氣流量增大,在
12、其他條件不變的情況下集氣管壓力升高。集氣管壓力系統是一個耦合嚴重、具有嚴重非線性、擾動頻繁劇烈的多變量時變系統,當一個集氣管內的壓力波動時,就會使另一個集氣管的壓力隨之波動。若波動量較大時,就會造成整個集氣管系統拉踞,出現振蕩現象。而鼓風機前吸力的變化、循環氨水流量的變化、用戶負荷的變化,又是集氣管壓力的間接擾動,很難用常規方法加以控制。在早前集氣管壓力的控制多采用液壓比例控制器,如前蘇聯“國立焦化工業 設計院焦化機械設計院”設計的集氣管壓力控制系統;在國內焦爐控制系統多采用電動單元儀表系統,如馬鋼焦化廠jn60-82型焦爐采用的定制調節系統。這些都是比較老的技術,現在基本上已經淘汰。近年來,
13、很多焦化廠采用了plc、單片機或工控機系統,對焦爐集氣管壓力及鼓風機吸力進行自動控制,如鐵嶺焦化廠用std-5801工控機構成的crb集氣管壓力控制系統。雖技術上比較成熟,設計調試簡單易行,但由于影響焦爐壓力的因素多而強烈,而且隨焦爐工況的變化,控制對象的模型也發生變化,pid控制很難兼顧減小超調量和提高快速性的要求,系統的調節品質會因參數變化而變壞,使壓力常有超出正常范圍的現象13。鑒于此,近年來,隨著神經網絡與模糊控制理論的發展、計算機技術的成熟,人們在模糊神經網絡控制,模糊控制與專家控制相結合的先進策略技術上進行了大量研究,且有的已經應用到實際中,如雞西礦局煤氣廠采用的智能系統13;西林
14、鋼鐵公司的焦爐集氣管壓力智能控制系統14。并且有人采用把plc控制和專家系統相結合的方法對集氣管壓力進行控制:對單集氣管壓力進行pid控制,對機前吸力的控制則采用專家控制15-16。1.2.3 存在的主要問題和缺陷對于集氣管壓力控制系統的設計可以采用不同的方法達到控制的目的,相對的每一種方法都有自己的優勢也存在各自的不足。pid控制器結構簡單,工作穩定,魯棒性較強,使用方便,但要求獲得對象相對精確的數學模型;智能解耦控制通過分管控制補償和設點動態調整,實現了焦爐組內并聯解耦,但要求擾動可測;專家控制則是將人的感性經驗和定理算法相結合的一種傳統的智能控制方法,能夠根據工業對象本身的時變性和不確定
15、性以及現場干擾的隨機性,控制器采用不同形式的開環與閉環控制策略,其主要優點是控制方法和知識表達靈活,但靈活性同時帶來了設計上的隨意性。模糊控制精度高,適用于數學模型未知的控制對象,已廣泛應用于工業生產過程控制,但相對的這種方法對于需要快速抑制擾動的對象不能獲得較理想的控制效果8,而且在模糊規則的獲取一直是個瓶頸問題。1.3 多變量控制系統解耦控制方法1.3.1 多變量控制解耦控制方法工業控制中,被控系統大多數是多變量系統。與單變量系統相比,多變量系統有多個輸入和輸出,內部結構復雜,會帶來一些特殊問題17:(1) 關聯性在多數多變量系統中,一個輸入信號的變化會使多個輸出量發生變化,一個輸出也會受
16、多個輸入的影響。將輸入與輸出配對,用一個輸入和一個輸出構成閉環控制回路時,各回路之間會存在相互影響,使得系統的控制品質急劇下降,嚴重時將導致系統無法工作。(2) 模型的不確定性單變量模型多半是低階慣性環節加純延遲,控制回路簡單,涉及的參數較少,其常用的pid控制器也有很好的控制特性,因此不確定性影響不大。多變量則涉及較多參數,難以得到精確的數學模型,各控制回路聯系多,使得參數變動對整體控制效果的影響變得復雜。(3) 控制部件的失效和完整性當系統的某些環節(如傳感器或執行器)出現故障時,可能影響整個控制系統的性能,嚴重時會使控制系統不穩定,造成重大事故。在多變量系統中有多個回路,其環節增多。因此
17、控制部件失效的可能性增大,將導致對其控制的難度增大。在此情況下,則要求在失效時系統仍不喪失某些基本性能(此特性稱為完整性),保證控制系統的穩態和動態特性不能變得太壞,即對系統的容錯控制。在多變量的幾個特殊問題中,回路之間的關聯最為典型,甚至在某些情況下,耦合不解除,系統就無法控制。多變量系統的解耦設計思想在控制學科發展初期就已經形成,在boksenbomhood和錢學森的著作中就已得到了基本研究;此后,kavanagh等人將這個理論用于過程控制系統。在現代控制理論的框架內,這個問題由morgan在1964年正式提出。隨著被控系統越來越復雜,被控對象存在著更多難以控制的因素,如不確定性、多外擾、
18、非線性、滯后、非最小相位特性等,使得工程對耦合控制系統的設計要求越來越高,設計難度也越來越大。因此,解耦問題成為學術上與工程上一大難題。 目前,在理論上研究比較成熟的解耦控制技術可分為以下幾類:傳統解耦方法、基于現代控制理論的解耦方法、自適應解耦方法和智能解耦方法。1)傳統的解耦方法傳統解耦方法主要適用于線性定常多變量系統,如下所述:(1)基于古典控制理論的串聯解耦由bristol提出的相對增益分析法和由bolscnbomhood和錢學森首先提出的對角形解耦方法18,是古典解耦的代表。其基本思想是:適當設計,使得輸入變量與輸出變量之間的系統傳遞函數矩陣成為對角矩陣。在此基礎上的進一步改進是改變
19、目標矩陣的解耦,它除了解耦外,能同時改變各個控制通道特性,使之更易于控制。(2)基于多變量頻域理論的逆nyquist曲線法、序列回差法和特征曲線分析法25。這幾種方法本身引用的概念多,計算復雜。2)基于現代控制理論的解耦方法由falb等人發展起來的狀態變量法19,主要有線性狀態反饋解耦和線性輸出反饋解耦。其基本思想是:通過從狀態變量或輸出變量處引出一個反饋陣,使得系統傳遞函數陣成為一個對角形有理多項式矩陣。這種方法首先需要進行能解耦性判定。3)自適應解耦方法自適應控制的思想與解耦控制技術相結合并用于多變量系統中,就形成了自適應解耦方法20。自適應解耦的目標是使系統的閉環傳遞函數成為對角陣,通常
20、把耦合信號作為干擾處理。自適應解耦實質上采用了最優控制的方法,建立目標函數并對參數尋優是該方法的核心,這是與傳統解耦方法的本質區別,是解耦理論的重大突破,也是智能解耦理論的基礎。4)智能解耦方法近幾年來,隨著智能控制技術的發展,“智能”的思想已運用于解耦控制中并取得一定的成果。文獻21利用神經網絡的可訓練性與結構通用性,引入神經網絡作為補償環節而達到解耦的目的。當對象的輸入輸出之間存在耦合,又沒有確定的映射關系,可以建立相應的模糊規則,進行模糊解耦。文獻22采用模糊概念表述相對耦合度,用模糊控制的方法設計了模糊解耦補償器,使系統能按不同的被控過程特性達到一定的解耦要求。文獻23將預測控制的思想
21、引入解耦控制中,進行預估補償解耦控制。在多變量解耦控制系統中,逐漸出現了將自適應控制、神經網絡控制、預測控制以及模糊控制等幾種不同方法融合在一起的設計方法,以求得更好的設計效果。模糊控制系統的不敏感性是其突出優點之一,尤其適用于不確定的系統,因此可將模糊控制應用于解耦控制。模糊解耦主要有兩種方法:1)直接解耦法方法是先對控制對象進行解耦,然后針對解耦而成的各單變量過程進行模糊系統的設計。針對模糊控制器的直接解耦法,仍然要求操作人員對受控對象認識的模糊信息的歸納和操作經驗的總結建立一組模糊控制規則或控翩查詢表,這在實際應用中是很困難的。通過將該模糊解耦控制算法用于氫氣燒結爐溫度控制可以看出,該法
22、適應性強,穩定性好,且設計思想簡潔,對多變量系統能較好地起解耦控制作用。2)間接解耦法間接解耦法是對控制器進行解耦。它既能快速跟蹤設定值,又能減弱各變量之間耦合的影響,獲得良好的控制效果;但是要求已知一組多維模糊控制規則,這給實際應用帶來了很大困難。1.3.2 集氣管壓力智能解耦控制焦爐集氣過程具有擾動變化激烈且壓力幅值變化大、耦合嚴重、強非線性和時變特性的特點。由于炭化室的裝煤、推焦等操作和結焦時間的變更、加熱制度的變化、鼓風機前吸力的變化等都不同程度地影響集氣管的壓力,因此無法獲得控制對象的精確數學模型,難以用常規方法進行控制。目前提出的焦爐集氣管壓力控制方法主要有pid控制、模糊控制、專
23、家控制、前饋補償解耦、模糊解耦控制等24。例如:文獻25提出了一種基于相關性分析的解耦控制算法,并與變積分常數pid控制相結合。該算法將變積分pi控制與運用相關性分析法的解耦控制有機結合,通過改變積分系數,保證單座焦爐的穩定,通過相關性分析及補償,消除焦爐之間集氣管壓力的耦合影響,解決了具有耦合特性的多座焦爐的集氣管壓力穩定問題;文獻26設計了一種專家規則與模糊控制相結合的智能控制器,在分析了集氣管耦合關系的前提下,提出了基于規則的補償解耦算法,通過分管控制補償和設定點動態調整實現了焦爐之間的并聯解耦;文獻27和28提出了一種基于pid神經網絡和rbf模糊神經網絡的多變量解耦控制方案,采用rb
24、f網絡多變量解耦控制器與被控對象構成廣義被控對象,通過學習達到解耦,由神經網絡pid控制器對解耦后的過程動態特性進行控制,能夠根據被控對象的特點,調整神經網絡權值,適應系統強擾動的干擾,從而有效地解決了集氣管壓力這類復雜對象的過程控制問題;文獻29提出了一種分層智能協調控制方法,將集氣管壓力控制系統劃分為基礎控制級、解耦級和協調級,通過分層結構解決過程的復雜性問題。這些控制方法針對解耦問題都提出了較好的思路42,也取得了一定的控制效果,但是它們都只是針對對稱的焦爐集氣管進行控制,難以解決具有焦爐容量不同、管道布局不同等不對稱特性的焦爐集氣管壓力控制問題。1.4 研究的主要內容近年來,隨著神經網
25、絡與模糊控制理論的發展、計算機技術的成熟,人們在模糊神經網絡控制,模糊控制與專家控制相結合的先進策略技術上進行了大量研究,有的已經應用到實際中。但現在模糊控制規則的建立一般采用的都是在經驗歸納法的基礎上,根據控制規則的設計原則,依靠專家知識和操作人員的經驗積累所得到的。這種方法現在大量的運用在實際的生產中,取得了較好的控制效果。但是隨著數據挖掘技術的發展和完善,本文為模糊控制規則的獲得提供了一個嶄新的途徑,即基于數據挖掘中的聚類分析算法來生成模糊控制規則。聚類算法是通過對變量的比較,把數據對象分組成為多個類,在同一類中的對象之間具有較高的相似性,而不同類之間的對象差別較大。因此,通過聚類以后,
26、數據集就轉化為類集,能夠識別密集的和稀疏的區域,從而發現全局的分布模式,以及數據屬性的關系。本課題的所有數據都來自唐鋼煉焦制氣廠。研究的具體內容包括:1) 數據預處理數據預處理階段主要進行數據集成、數據凈化以及數據的應用變換等工作。將不同采集系統中獲取的數據集成到同一數據庫中,然后將壞值刪除,對缺失數據進行補齊,最后按照數據挖掘算法或需求分析的要求對數據進行應用變換26-28。因此本課題對在唐鋼所采集到的原始數據按照一定的方法進行數據預處理,使數據符合研究的需要。2) 聚類分析在數據預處理和生成機理模型的基礎上,通過數據挖掘中的聚類分析方法對數據進行聚類,生成個模式類(patterns)(其中
27、的值可根據實際需要人為設定)。3) 生成模糊控制規則每個模式類中的數據中必定有潛在規律,再在同一類數據中找出數據的潛在規律,則可挖掘出可以控制集氣管壓力的模糊控制規則,用來豐富模糊控制規則表。4) 利用模糊控制的方法進行集氣管壓力控制的耦合分析及解耦設計此研究的目的是減弱耦合的影響。5) 進行系統仿真和性能分析 對生成的模糊控制規則進行計算機仿真,仿真過程將采用matlab軟件,在仿真過程中,主要是進行模糊控制器的設計。2 數據預處理2.1數據預處理的必要性及實際數據存在的問題2.1.1 數據挖掘中數據預處理的必要性數據預處理以領域知識作為指導來組織原有的業務數據,放棄一些與挖掘目標不相關的屬
28、性,提供高質量的數據,從而可以減少數據挖掘的數據處理量,提高挖掘算法的效率,并能提升數據挖掘的起點和知識的準確度。數據挖掘過程可粗略地理解為四部分:問題定義、數據采集及數據預處理、數據挖掘、以及結果的解釋評估。可見數據預處理是其中的重要一環,是必不可少的。數據預處理以領域知識作為指導,來組織原來的業務數據,放棄一些與挖掘目標不相關的屬性,提供高質量的數據,從而減少了數據挖掘的數據處理量,提高了挖掘算法的效率,提升了數據挖掘的起點和知識的準確度12-13。數據挖掘中的一些成熟的算法對其處理的數據集合都有一定的要求,比如數據完整性好、數據的冗余性少、屬性之間的相關性小。然而實際系統中的數據一般都具
29、有不完全性、冗余性和模糊性,嚴重影響了數據挖掘算法的執行效率。另外,海量的實際數據中無意義的成分很多,嚴重影響了數據挖掘算法的執行效率,而且其中的噪聲干擾還會造成挖掘結果的偏差。因此,如何對原始數據進行有效的預處理,己經成為數據挖掘系統實現過程中的關鍵問題。2.1.2 實際數據存在的問題數據挖掘中的重要環節就是數據預處理,而且是必不可少的。在數據挖掘一些成熟的算法中對其處理的數據集合都有一定的要求,比如數據完整性好、數據的冗余性少、屬性之間的相關性小。然而實際系統中的數據一般都具有不完全性、冗余性和模糊性,嚴重影響了數據挖掘算法的執行效率,而且由于其中的噪聲干擾還會造成無效的歸納。因此,數據預
30、處理已經成為數據挖掘系統實現過程中的關鍵問題。要使數據挖掘算法有效地挖掘出知識,就必須為它提供干凈、準確、簡潔的數據。然而,從實際應用系統中收集到的原始數據通常存在以下幾方面的問題:1、 雜亂性:原始數據是從各個實際應用系統中獲取的,由于各個實際應用系統的數據缺乏統一標準和定義,數據結構也有較大的差異,因此各系統間的數據存在較大的不一致性,往往不能直接拿來使用。2、 重復性:重復性是指對于同一個客觀事物在數據庫中存在兩個或兩個以上完全相同的物理描述。由于應用系統實際使用中存在的一些問題,幾乎所有應用系統中都存在數據的重復和信息的冗余現象。3、 不完整性:由于實際系統設計時存在的缺陷以及一些使用
31、過程中人為因素造成的影響,數據記錄中可能會出現數據屬性的值丟失或不確定的情況,這可能缺少必需的數據而造成數據不完整。2.2 對焦爐集氣管壓力各屬性數據進行數據預處理本文主要從數據的集成和數據的凈化兩個方面介紹焦爐集氣管壓力各屬性數據的數據預處理。為了更好的對數據與預處理進行分析,本文以某煉焦制氣場2#焦爐的集氣管蝶閥開度值為例,介紹數據預處理的過程。2.2.1 數據的集成 首先的工作是將某煉焦制氣廠關于2#焦爐的18個屬性的全部數據集成到同一數據庫中,由于實際中的某些原因使得在一些采樣時刻的數據并未采集到,這些數據以“bad”的形式而不是以具體的數值標示出來,于是首先將上述“bad”值從數據庫
32、中刪除。從某煉焦制氣廠采集到的集氣管蝶閥開度原始數據格式如表1所示。集氣管壓力系統不同屬性的數據是從不同的實際采集系統中獲取的,它們具有不同的采樣周期,要將它們放在同一個數據庫中需要一個統一的標準。在此通過分析將時間作為統一的標準,即將同一時刻(精確到秒)不同屬性相應的數據作為一條記錄。而不同屬性在采集數據時其開始時間和結束時間是不同的,經過對比分析將統一時間段取為從“2010-2-2 7:36:52”開始至“2010-2-3 16:51:17”結束。表1 原始數據表table1 table of original data開度值時間39.2 %03-feb-10 11:10:2539.5 %
33、03-feb-10 11:10:2638.5 %03-feb-10 11:12:1838.1 %03-feb-10 11:12:19bad03-feb-10 15:22:0243.0 %03-feb-10 15:27:0343.5 %03-feb-10 15:27:4144.1 %03-feb-10 15:27:422.2.2 數據的凈化噪聲數據處理和缺值數據處理是數據凈化的主要工作。在原數據集中,由于受實際系統干擾等因素的影響,會出現一些噪聲數據或是偏離正常值很遠的不正常數據,例如集氣管的壓力值,根據實際的生產可知,當壓力值小于70pa,或大于330pa時都屬于不正常值,需要進行數據凈化,在
34、此處理方法是將小于70pa的值用70pa來代替,大于330pa的值用330pa來代替。其他屬性的處理方法與此類似。所以,在海量的數據中,有的壓力值明顯偏離正常值,我們完全可以把它剔除出去,進行數據凈化。當然,在大量數據中我們不可能通過目測得到這些異常值,我們可以通過一些辦法獲得。(這里就不詳細介紹了)由于各個屬性數據在采集時其采樣周期是不同的,于是出現在一些時刻點(精確到秒)有的屬性有對應的采集數據,而有的屬性則沒有,致使在同一時間段內各個屬性數據采集到的數據個數是不同的,這不符合后續數據挖掘算法的實施要求,于是需要將采樣周期大的屬性按照采樣周期小的屬性的采樣周期依據一定的策略進行數據的補齊,
35、使得所有屬性的所有數據在每一個時刻點都有對應的數值。將采樣周期大的屬性按照采樣周期小的屬性的采樣周期進行數據的補齊,不會掩蓋其變化規律。3 對數據進行聚類分析數據挖掘領域最為常見的技術之一就是聚類,它用于發現在數據庫中未知的對象類。這種對象類劃分的依據是“物以類聚”,即考察個體或數據對象間的相似性,將滿足相似性條件的個體或數據對象劃分在一個組內,不滿足相似性條件的個體或數據對象劃分在不同的組內。通過聚類過程形成的每一個組稱為一個類。在數據挖掘之前,對象類劃分的數量和類型均是未知的153.1 數據挖掘概述3.1.1 數據挖掘的定義數據挖掘(dm,data mining),又叫做知識發現(kdd,
36、knowledge discovery in database),是近年來隨著人工智能和數據庫技術的發展而出現的一門新興的技術。數據挖掘就是從海量的,不完全的,有噪聲的,模糊的,隨機的數據中,提取含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。簡單地說,數據挖掘就是從海量的數據中提取或“挖掘”知識31。數據挖掘技術從一開始就是面向應用的。但它又不僅僅是面向特定數據庫的簡單檢索查詢調用,而是要對這些數據進行微觀或宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。數據挖掘的研究方法主要建立在人工智能、計算智能、統計
37、分析等理論和方法的基礎上,包括:統計方法、機器學習方法、模糊理論方法、人工神經網絡方法、遺傳算法等32-34。在實踐中,數據挖掘的兩個基本目標往往是預測和描述。預測涉及到使用數據集中的一些變量或者域來預測其他我們所關心變量的未知或未來的值;另一方面,描述關注的則是找出可由人類解釋的數據模式。因此,可以把數據挖掘活動分成下述兩類21:預測性數據挖掘:生成已知數據集所描述的系統模型。描述性數據挖掘:在可用數據集的基礎上生成新的、非同尋常的信息。在實際應用中,根據挖掘的任務,可分為26:1)分類分析(classification analysis)(預測變量為離散)或回歸分析(regression
38、analysis)(預測變量為連續):預言模型以通過數據庫中的某些數據得到另外的數據目標;2)聚類分析(clustering analysis):用于從數據集中找出相似的數據并組成不同的組;3)關聯分析(association analysis):發現描述變量之間或者數據集或其一部分的特征值之間的重要的相關性的本地模型;4)序列分析及時間序列(sequence analysis and time sequence):說明數據中的序列信息和與時間有關的序列分析;5)孤立點分析(outlier analysis):找出與數據一般行為或模型不一致;6)演變分析(evolution analysis)
39、:描述行為隨時間變化的對象的規律或趨勢;等等等。3.1.2 數據挖掘的結構數據挖掘系統可以大致分為三層結構27,如圖3所示。第一層是數據源,包括數據庫、數據倉庫。數據挖掘不一定要建立在數據倉庫的基礎上,但如果數據挖掘與數據倉庫協同工作,則將大大提高數據挖掘的效率。第二層是數據挖掘器,利用數據挖掘方法分析數據庫中的數據,包括關聯分析、序列模式分析、分類分析、聚類分析等。第三層是用戶界面,將獲取的信息以便于用戶理解和觀察的方式反映給用戶, 可以使用可視化工具。用戶界面(結果輸出)數據倉庫odbc或其它數據庫接口關聯分析.分類分析聚類分析數據 庫其它數據源 模式分析圖3 數據挖掘體系結構fig. 3
40、 the structure of dm system結 論3.2 聚類的定義和方法3.2.1 聚類的定義聚類就是把大量的數據對象聚集成若干個類,使同一類中對象的相似性盡可能最大,而不同類中對象的相似性盡量達到最小。也就是說,形成聚類之后,同一個聚類內對象具有很高的相似性。在應用中經常把同一個類中的數據對象當成一個整體來對待。3.2.2 聚類的方法聚類的方法主要有統計學的方法和機器學習的方法兩種27。在統計學中,聚類一般稱為聚類分析,主要研究基于幾何距離的聚類。在使用上,首先要定義多維空間和距離,以距離作為相似性的判別標準。在機器學習中,聚類稱為無監督學習,主要體現為聚類學習的例子或數據對象沒
41、有類別標記,需要由聚類學習算法自動計算。而若從數據庫知識發現的角度來講,對聚類問題的研究是要從大量的數據集中智能地、自動地抽取出有價值的聚類知識。聚類的輸入是一組未分類的記錄,而且事先也不知道要分成幾類,它通過分析數據,根據一定的分類準則,合理劃分記錄集合,從而確定每個記錄所屬的類別。在不同的聚類算法中,用于描述相似性的函數也有所不同,有的采用歐氏距離或馬氏距離,有的采用向量夾角的余弦,也有的采用其他的度量方法。當事先不知道類型數目,或者用參數估計和非參數估計難以分辨不同類型的類概率密度函數時,就需要采用聚類分析。有些聚類分析算法可以自動地確定類型的數目k(聚類的個數),而不必以預知k為前提條
42、件,也可以給定k作為算法的終止條件。若沒有給定k,那么如何在聚類過程中自動地確定k,這是聚類分析中的一個關鍵問題。采用不同的聚類方法,同一個記錄集合可能有不同的劃分結果49。到現在為止,人們已經提出了很多種聚類算法39,比如:劃分法、層次法、基于密度法、基于網格法和基于模型法,這些算法對于不同的研究對象各有優缺點。3.2.3 聚類分析簡介隨著時代的發展,數據挖掘的研究方向越來越熱門,而聚類(clustering)作為數據挖掘的主要方法之一,更是引起人們的普遍關注。所謂聚類,就是把大量的維數據對象(個)聚集成個模式類(),使同一模式類內對象的相似性盡可能最大,而不同模式類內對象的相似性盡量達到最
43、小。也就是說,形成模式類之后,同一個模式類內對象具有很高的相似性,而且與不屬于該模式類的對象有迥然的差異(即不相似)。在應用中經常把同一個模式類中的數據對象當成一個整體來對待38。聚類是一種無監督分類,它的輸入是一組未分類的記錄,而且事先也不知道要分成幾類,它通過分析數據,根據一定的分類準則,合理劃分記錄集合,從而確定每個記錄所屬的類別。不同的聚類算法中,用于描述相似性的函數也有所不同,有的采用歐氏距離或馬氏距離,有的采用向量夾角的余弦,也有的采用其他的度量方法。當預先不知道類型數目,或者用參數估計和非參數估計難以分辨不同類型的類概率密度函數時,就需要采用聚類分析。有些聚類分析算法可以自動地確
44、定類型的數目,而不必以預知為前提條件,也可以給定作為算法的終止條件。若沒有給定,那么如何在聚類過程中自動地確定,這是聚類分析中的一個關鍵問題。采用不同的聚類方法,同一個記錄集合可能有不同的劃分結果。聚類的結果與特征選取也有很大關系。例如對人體進行聚類:可以根據體重進行分類,也可以根據身高分類,也可以根據年齡分類。選取不同的特征,就會產生不同的結果31-38。3.3 數據預處理結果文中用到的數據都采集于唐鋼煉焦制氣廠。集氣管不同屬性的數據是從不同的實際采集系統中獲取的,它們具有不同的采集策略(例如采樣頻率不同),要將它們放在同一個數據庫中需要一個統一的標準。在此通過分析將時間作為統一的標準,即同
45、一時刻(精確到秒)不同屬性相應的數據作為一條記錄。所以首先對比各屬性數據,將其統一到一個時間段。在原數據集中,由于受實際系統干擾等因素的影響,會出現一些噪聲數據或是偏離正常值很遠的不正常數據,所以需要除去了噪聲數據和無關數據,進行數據清洗。最后經過預處理后,可得到如下表2所示的數據形式:表2 進行預處理后的數據table 2 the standardized data集氣管1壓力p1蝶閥開度k1集氣管2壓力p2 蝶閥開度k2 鼓風機機前吸力p3-11.760.4405-45.152730.51286.336-8.930.4405-44.949090.51286.339-7.1250.4405-
46、44.745450.51286.342-5.320.4405-44.541820.51286.345-4.240.4405-44.338180.51286.34816.950.413213.340.50436.25080322.330.41325.820.50436.25046827.600.4132-1.020.50436.25013432.580.4132-7.370.50436.24979937.470.4132-12.940.50436.249465由表2可以看出,經過標準化變換后,每一個變量值都表示的是它所對應的原始值相對于本屬性變化值。3.4多變量集氣管壓力模糊控制的解耦設計多變量
47、模糊控制系統是一個強耦合的系統,不能簡單地化為多個單輸入單輸出系統,此時必須考慮到變量間的耦合,以便對系統采取相應的解耦措施后再實施有效的控制。本課題采用模糊解耦控制進行解耦設計。模糊解耦控制器模糊控制器被控對象 _ 圖4 模糊解耦控制策略圖fig.4 policy graph of fuzzy decoupling control為第i集氣管壓力的設定值,為相應的集氣管壓力測量值,被控對象為電動調節蝶閥。反映了相鄰通道對主通道i的耦合作用,作為i通道模糊解耦控制器的輸入。根據圖7可得: 當集氣管為2個時,則主通道1的為:由此可知,模糊解耦控制器的輸入實際上是相鄰集氣管壓力偏差量的差值,而模糊
48、解耦控制器的輸出是相應蝶閥開度的變化量。解耦控制策略采用的是模糊解耦控制,再通過數據挖掘生成相應的模糊解耦控制規則,從而完成解耦設計。在采用預處理后的數據基礎上進行數據準備,模糊解耦控制器的輸入和輸出,#1焦爐和#2焦爐的設定值都是145,模糊解耦控制器的輸入是集氣管壓力的差值,模糊控制器的輸出是蝶閥開度的差值變化量,所需要的數據準備如下表:表3 生成模糊控制器所需數據組table 3 the needed data team of creating fuzzy controller解耦輸入p1-p2解耦輸出-49.520-0.0064-37.320-0.0046-24.1300-9.4800
49、89.4800.006879.1270.005467.595055.092077.0700007873.8400.002269.205063.390056.65003.5 k-means聚類算法k-means是一種常用的基于劃分的聚類方法,在許多實踐應用中取得了很好的效果。本文在對數據進行聚類分析時,將采用劃分方法中常用的k-means算法。劃分方法的基本思想是:給定要構建的劃分的數目k,首先創建一個初始劃分,然后采用一種迭代的重定位技術,嘗試通過對象在劃分間移動來改進劃分。劃分方法需要給定一個包含n個數據對象的數據庫,以及要生成的類的數目k,一個劃分方法將數據對象組織成k個劃分(kn),其中
50、每個劃分代表一個類。也就是說,它將數據劃分為k個組,同時滿足如下的要求:1)每個組至少包含一個對象;2)每個對象必須屬于且只屬于一個組(在某些模糊劃分技術中此要求可以放寬)。k-means算法在許多實際應用中取得了很好的效果,它是以平均值作為類的“中心”的一種劃分聚類方法。假設有n個對象,將其劃分為k個類,其中,分成的聚類的個數k是采用k-means算法必須預先指定的參數。聚類的過程可以通過下述幾個步驟來描述:1)隨機的選擇k個對象,每一個對象作為一個類的“中心”,分別代表將分成的k個類;2)根據距離“中心”最近的原則,尋找與各對象最為相似的類,將其他對象分配到各個相應的類中;3)在完成對象的
51、分配之后,針對每一個類,計算其所有對象的平均值,作為該類的新的“中心”;4)根據距離“中心”最近的原則,重新進行所有對象到各個相應類的分配;5)返回步驟3,直到沒有變化為止。該方法的計算復雜度為o(nkt),其中n是對象的總數,k是分成的聚類的個數,t是迭代的次數。通常kn,tn,因此該方法可以應用于數據量比較大的情況,這是該算法的一個優點3.6 采用k-means算法對解耦輸入輸出數據分別進行聚類3.6.1 程序界面數據的輸入形式采用excel格式導入,采用k-means算法對數據進行聚類,是解決聚類問題的一種經典算法,它是一種爬山式的搜索算法,程序運行界面如下圖4所示:圖5 程序界面fig
52、5 the interface of program其中,excel文件路徑是選取要分析的數據所在的excel文件,excel起始分析行選擇聚類數據開始的行數,excel待分析數據所在列是要分析數據在excel表的第幾列,聚類中心數是聚類個數。對模糊解耦控制器的輸入數據聚類如圖5所示 圖6 輸入聚類結果fig.6 the input of the clustering results對模糊解耦控制器的輸出數據聚類如圖6所示:圖7輸出聚類結果fig.7 the output of the clustering results3.6.2 設定論域及其隸屬度函數這里繼續利用前面介紹的k-means算
53、法分別對解耦輸入輸出數據組進行聚類。在這里定義語言變量取值范圍都為 pm,ps,ze,ns,nm ,因此我們設定聚類的模式類為5個。通過聚類后每個模式類的中心值及其取值范圍都是可以確定的。如表4所示。表4 模式類的中心值及其取值范圍table 4 the center value and the range of every pattern (a) 解耦輸入模式1模式2模式3模式4模式5中心值-87.70979-27.510586.2484546.46120128.21483最大值-57.43000-10.5274026.3908087.33000244.30000最小值-234.24000-
54、57.40780-10.5221026.3914087.37500(b) 解耦輸出 模式1模式2模式3模式4模式5中心值-0.00945-0.00496-0.000310.004370.00855最大值-0.00730-0.002700.002000.006400.01400最小值-0.45490-0.007100.002600.002200.00650將每個變量的模式類的中心值按照從大到小的順序和其語言變量取pb,pm,ps,ze,ns,nm,nb一一對應,并確定相應的隸屬度函數。語言變量的隸屬度函數有很多種,本文中采用三角形隸屬度函數。在每一個語言變量的隸屬度函數中都把其中心值的隸屬度設置
55、為“1”,其最大值和最小值的隸屬度設置為“0”。每個語言變量的各個模糊子集(語言值)之間并沒有明確的分界線,反映在模糊集的隸屬度函數上,就是這些隸屬度函數必定是相互重疊的。因為我們利用數據挖掘中的聚類分析來生成各個語言變量,根據聚類分析的特點:同一模式類內對象的相似性盡可能最大,而不同模式類內對象的相似性盡量達到最小。因此我們可以確定通過聚類分析確定的各個語言變量的隸屬度函數之間必定只有很小的重疊率。4 生成模糊控制規則并仿真4.1 模糊控制的理論基礎模糊控制或模糊自動控制系統是以模糊數學,即模糊集合論、模糊語言知識表示及模糊邏輯規則推理等作為理論基礎;以計算機作為物質基礎;以計算機控制技術、
56、自動控制理論作為技術基礎的自動控制系統。模糊控制系統既然是一種自動控制系統。它必然與其他所有的自動控制系統一樣有著某些共性,如系統的結構組成、基本工作原理、設計方法、系統性能分析、建模等。4.1.1 模糊控制的基本原理模糊控制系統通常由模糊控制器、輸入/輸出接口、執行機構、被控對象及測量裝置等五部分組成,如圖7所示31。+給定值a/d模糊控制器d/a被控對象執行機構傳感器被控量圖8 模糊控制系統組成框圖 fig 8 fuzzy control system diagram 控制器是模糊控制系統的核心部分,采用基于模糊知識表示和規則推理的語言型“模糊控制器”,這也是模糊控制系統區別于其他自動控制系統的特點所在。一個模糊控制系統性能的優劣,主要取決于模糊控制器的結構,所采用的模糊規則,合成推理算法,以及模糊決策的方法等因素。另外,模糊控制系統中a/d、d/a單元必須有適用于模糊邏輯處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園小班社會教案《好朋友》
- 邯鄲燃氣面試題及答案
- 綠色轉型面試題及答案
- 頭盔安全教育
- 清明節傳統文化教育
- 2025年生蠔項目立項申請報告
- 江陰保姆面試題及答案
- 浦發java面試題及答案
- 綜合管理考試試題及答案
- 計劃觀點面試題及答案
- 廉潔行醫專題培訓課件
- 南通市如東縣醫療衛生單位招聘事業編制工作人員筆試真題2024
- 歷史●甘肅卷丨2024年甘肅省普通高中學業水平等級性考試高考歷史真題試卷及答案
- 2024年杭州市臨安區事業單位統一招聘真題
- C語言程序設計基礎知到智慧樹期末考試答案題庫2025年石河子大學
- 黨建考試試題及答案國企
- 客運行業事故隱患內部報告獎勵管理制度2025
- 縱隔腫物護理
- 房屋建筑與市政工程重大事故安全隱患判定標準解讀課件
- DB43-T 1267-2023 機動車檢驗機構建設和運行管理規范
- 公司稅務注銷協議書
評論
0/150
提交評論