線損分析及智能評估系統方案_第1頁
線損分析及智能評估系統方案_第2頁
線損分析及智能評估系統方案_第3頁
線損分析及智能評估系統方案_第4頁
線損分析及智能評估系統方案_第5頁
已閱讀5頁,還剩9頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、線損分析及智能評估系統目的和意義電能在傳輸和營銷過程中所產生的電能消耗和損失稱為線損。線損產生于輸 電、變電、配電、售電各個環節,線損率作為電力企業的重要綜合性經濟指標, 線損率有著重要的作用,它不僅能夠反映電力企業的經濟性還能夠反映企業的盈 利率。線損直接體現了電網規劃設計的合理性,反應了生產技術和運營管理水平 的高低線。根據損耗的來源和特征的不同,可以將線損進行分類,如圖1-1所示。固定損耗可變損耗管理損耗電能表線圈和鐵芯的損耗變壓器繞組中的損耗電流表電流線圈的損耗用戶違章用電和竊電損失營業中抄核收之差錯損失變壓器的空載損耗電容器的介質損耗線路導線中的損耗電網元件漏電損失計量表計誤差損失理

2、論線損 (技術性損耗)管理線損 (非技術性損耗)圖1-1線損分類實際線損(或統計線損)通常指由電表抄錄值所提供的總發電量與售電量之 差,分為理論線損和管理線損。其中理論線損是電網本身結構、設備決定的,電 能傳輸不可避免地造成損失,它主要與技術狀況、運行方式、電網結構有關,包 含各電力元件可變損耗部分及固定損耗部分。可變損耗包括線路中的損耗、變壓 器繞組中的銅耗及電能表電流線圈中的損耗等,由于這些損耗的值與流過電流或 功率的平方成正比,所以是可變值;固定損耗包括變壓器的空載損耗(也稱為鐵 損)、電容器介質損耗和電能表電壓線圈或鐵芯中的損耗等,這些損耗主要只受 兩端電壓的影響,所以是固定值。統計線

3、損的另一部分稱為管理線損,其中主要 包括電網元件中的漏電損耗、計量表誤差損耗、營業朝核收差錯損失及用戶竊電 損耗等。管理線損主要是由于電力企業在營銷過程中由于用戶管理不當、計量誤 差等造成,取決于供電企業生產經營活動中降損節能的管理水平。在我國電網損耗中,配電網損耗占了絕大部分。配電網長期資產利用率低, 經濟運行指標低,網損嚴重,城鄉配電網損耗占總量的70%左右,配電自動化系 統覆蓋圍不到9%,遠低于發達國家。所以,配電網線損分析及降損研究是電網 線損研究的重中之重。對此,國家能源局2015年提出了推進配電自動化和智能 用電信息采集系統建設,實現配電網可觀可控,推動智能電網建設與互聯網深度 融

4、合的配電網建設改造行動計劃。但是,配電網具有地域分布廣、規模大、設備種類多、網架和運行方式復雜 的顯著特點。隨著配電自動化、用電信息采集等應用系統的推廣應用,配電網中 產生了指數級增長的海量異構、多態的數據,數據集合的規模已經達到了大數據 級別。但是,圍繞配電網大數據的應用缺乏,所以,如何有效利用、挖掘配電網 數據信息,提高配電網供電可靠性,實現配電網信息可控可觀,降低網損成為亟 待解決的問題。對此,本項目依托已有的數據資源,研究具備配電網態勢感知、智能線損分 析評估、故障定位等功能的配電網應用系統。以精細化管理為實施載體,深化精 準降損,建設一套可用的基礎數據完善、相關業務融合、數據共享貫通

5、、監管落 地到位的線損可視化監管分析系統,實現計量資產可視化、線損率變化可溯源、 降損任務可分解、專家輔助診斷全面、降損整改措施閉環、管理責任評價排名等 功能,全方位、多維度支撐管理降損和技術降損。國外線損分析研究現狀線損分為理論線損和管理線損兩類,目前國外的研究也集中于這兩個方面。 其中,理論線損包括變壓器空載損耗、電容器介質損耗、線路導線的損耗等,是 由電網本身所決定的損耗,Chou Zhou1 等人根據負荷實測結果,用理論計算的 方法,對電網主網線損的構成、分布及影響因素進行了分析,但是該工作只針對 220KV以上的電網,并且理論計算沒有考慮用電站、電暈損失和其他輔助損耗。 Jakob

6、Sahlin2 等人建立了利用多元線性回歸和交換流模型對第二天的線損進 行預測的模型,但是結果依賴于對輸入數據和交換流的準確預測。管理線損包括竊電、計量表誤差、漏電等,其中,竊電占了絕大部分,所以, 國外的管理線損分析研究主要集中在竊電分析上。Bharat Dangar3等人提出了 一種使用極限學習機(ELM)、改進ELM(OS-ELM)、支持向量機(SVM)三種算法 來進行電力損耗識別、檢測和預測的電力損耗分析框架,并應用于印度古吉拉特 邦GUVNL公司,減少由于竊電導致的配電損耗,取得了較好的成果SamWeckx4 等人提出了一種在未知或不確定電纜長度的智能電網過電網中的非法連接檢測 竊電

7、的算法,使用智能電表的測量值來識別電網參數,并檢測特定客戶的違規行 為。Yinghui Li5等人提出了基于BP神經網絡的客戶消費行為分析模型,利用 該模型可以計算出竊電的懷疑系數,并對電力用戶的信用等級進行分類,并選取 了一些典型的企業,對竊電模型進行了驗證,得出了一個可行的解決竊電問題的 思路。曾虎6首先利用模糊C均值(FCM)算法對負荷曲線進行聚類,得到典型 特征曲線,再與用戶負荷曲線進行匹配,篩選出疑似竊電用戶,再使用基于粒子 群算法優化的SVM算法進行進一步檢測,準確性較SVM算法高。綜上所述,目前 基于大數據的竊電研究仍然存在著問題,例如,需要大量的竊電樣本對模型進行 訓練,以提高

8、模型精度,但是竊電樣本通常都不多,導致準確率不高。并且,用戶的用電行為可能會因為各種原因發生變化,所以即使用戶的用電發生變化,模 型計算得出的竊電用戶仍然需要工作人員進一步確定,不能直接判定為竊電。研究容綜上所述,目前對于線損的研究大都處于理論研究層面,幾乎沒有針對配電 網線損,包括理論線損和管理線損的綜合分析,也沒有直接應用于電網進行線損 分析及降損研究。因此,本項目依托已有的數據資源,研究智能線損分析評估系 統,主要包括線損可視化展示、線損分析與評估兩個部分。研究容如下圖所示,地區線損監測數據線損定位及智能診斷系統線損可視化 展示線損因素評估數據地區線損排序情況理論線損分析理論計算方法 智

9、能評估方法線損分析與評估管理線損分析決策樹典型特征分析異常用電檢測竊電檢測平均電流法等值電阻法聚類算法隨機森林決策樹算法關聯關系分析Apriori算法圖3-1研究容3.1線損可視化展示可視化展示主要展示線損分布,線損數據圖表以及各地區線損分類排行。可 分為以下三個部分:開發基于三維GIS的配電網監視與管理信息系統、配電網狀態實時感知 系統和大數據智慧圖表統計系統。利用配電網實時監測數據及電網拓撲結構,結 合日損耗、月損耗數據,監測配電網線損情況,并以熱力圖形式展示線損總體分 布。利用決策樹等分類算法對線損進行分線、分壓、分臺區精細化分類,結 合三維GIS和實時3D可視化技術,展示各地區線損分類

10、排行,生成線損數據圖 表。當工作人員通過熱力圖點擊進入GIS地圖時,可以在線路沿布圖、SVG單線 圖可視化查看線損相關指標數據及線損原因。結合線損分析與評估模塊輸出的數據,利用echarts等技術結合百度地 圖坐標點分線、分壓、分臺區展現全省綜合線損率指標變化及各地綜合線損率指 標排名,以及線損指標之間的關聯關系,方便管理層直觀觀察高損區域、綜合線 損率指標變化態勢,輔助制訂降損方案等決策。3.2線損分析與評估該模塊主要從基礎數據、設備監測、采集監測、通信監測、運行方式五個維 度全方面實現對電氣設備線損狀況的監測管控,找出線損異常原因,為異常線損 治理找準“脈搏”,從而采取適當的技術措施、管理

11、措施實現降損的目標。線損 分析與評估主要分為三個部分,分別為理論線損分析、管理線損分析和線損關聯 關系分析。理論線損分析的目的是找出導致線損異常的發生故障的設備,管理線 損分析的目的是分析設備管理異常或者用戶管理不當產生的線損,關聯關系分析 的目的在于找出線損、地區和設備、時間之間的關聯關系,為電力公司降損和電 網運行檢測提供指導。3.2.1理論線損分析理論線損的分析目前主要有兩種方式,一種是基于電網潮流斷面、拓撲結構、 系統參數構成的電網理論線損計算與分析模型,另一種是利用大數據理論,使用 機器學習算法建立線路理論線損評估模型。3.2.1.1理論計算與分析電網理論線損計算模型是分層構建的,涵

12、蓋主網主接線圖、廠站站接線圖、 配電網單線圖以及低壓臺區接線圖。結合電網運行數據(包括負荷、母線電壓、 電量和電網運行方式數據),實現主網、配電網和低壓網的全電壓等級線損理論 計算。參照計算評估標準對計算結果進行評估,按照“四分”原則進行數據匯總, 定制生成電網理論線損計算匯總統計報表及電網理論線損計算分析報告。理論線損計算是基于電網實時監測裝置監測的海量數據,結合電網拓撲結 構,運行方式以及系統參數等數據,計算各電網元件電能損耗量。整個電力網電 能損耗計算可以分解為如下元件的電能損耗計算:35kV及以上交流線路及變壓器。20kV交流線路及公用配電變壓器。10kV交流線路及公用配電變壓器。6k

13、V交流線路及公用配電變壓器。0.4kV及以下電力網。其他交流元件,如并聯電容器、并聯電抗器、調相機、電壓互感器和站用變壓器等。7)直流線路、接地極系統和換流站(如換流變壓器、換流閥、交流濾波器、 平波電抗器、直流濾波器、并聯電抗器、并聯電容器和站用變壓器)等高壓直流 輸電系統。理論計算方法主要有平均電流法、等值電阻法等。通過理論計算各電網元件 的理論線損量,可以找出導致線損異常的設備,實現線損異常定位。理論線損率表達式為理論線損率=(本網理論線損電量/計算供電 量)X100%。3.2.1.2智能線損評估由于理論計算存在著假設簡單,計算復雜等缺點,因此提出了利用大數據方 法對線損進行預測估計的方

14、法來進行補充。基于大數據的智能線損評估,首先要 利用電力公司線損系統、生產管理系統(PMS)、營銷系統(CMS)的多源數據, 構建線損特征數據庫,然后再利用基于聚類算法的隨機森林算法模型進行線損評 估。將評估結果與理論計算結果進行比較,幫助工作人員確定線損異常原因。 3.2.2管理線損分析管理線損是由電力公司在營銷管理過程中由于管理不當造成的電能損失,主 要由設備信息異常、通信異常和竊電損失造成。3.2.2.1設備信息異常和通信異常集成GIS、營銷、計量系統基礎臺賬數據,利用決策樹分類算法實現GIS與 營銷、GIS與計量、營銷與計量三個系統變電站、線路、配變數據的分類與匹配, 分析各系統間設備

15、臺賬一致率、匹配率,從而進行針對性治理設備信息異常和通 信異常,提高基礎數據準確性,減少不必要的電能損失。主要步驟為:(1)集成GIS、營銷、計量三個業務系統的基礎臺賬,利用決策樹算法進 行分類,實現基礎臺賬的一致性匹配檢查。(2)按區域對業務系統數據匹配情況進行圖表展現。(3)對不匹配數據提供逐級鉆取功能,分析不匹配數據原因。3.2.2.2竊電分析竊電損失作為管理線損的重要組成部分,每年都會給國家帶來巨大的經濟損 失,據統計,在美國,電力公司每年會因為竊電而損失大約60億美元,而我國 每年因為竊電造成的經濟損失有200億元,竊電不僅損害了國家和供電企業的經 濟利益,而且嚴重影響了社會經濟的正

16、常發展。同時,竊電還存在著比較大的安 全隱患,影響著電網的安全運行,如造成線路短路,引發火災,給其他用戶的正 常用電帶來了較大影響。竊電分析主要分為三個部分組成,典型用電特征分析、異常用電檢測和竊電檢測。主要流程如圖3-2所示,典型用電特征異常用電檢測竊電檢聚類層級分類歐氏距離相關系數SVR PSO用戶分類特征匹配檢測算圖3-2竊電分析流程圖首先,利用基于決策樹思想的層級分類法結合聚類算法,利用電壓等級、年 用電負荷特征、日用電負荷特征分別作為三級分類節點,分別對海量用電數據進 行精細化分類,挖掘典型用電特征。選擇電壓等級為第一級節點,對用戶進行分類;挖掘年負荷曲線特征屬性,例如負荷率,假期用

17、電差異,峰谷用電差異等, 作為第二級節點,對用戶進行聚類;挖掘日負荷曲線特征屬性,例如負荷率,峰谷用電等,作為第三級節點, 對用戶進行聚類;分析用戶典型用電特征。其次,利用特征匹配法對比典型用電特征與用戶或計量點用電行為特征,檢 測異常用電;最后,利用基于SVM算法(Support Vector Machine, SVM)改進的支持向 量機回歸算法(Support Vector Regression, SVR),并利用粒子群算法(Particle Swarm Optimization, PSO)對其進行優化,建立竊電檢測模型,對異常用電用 戶或計量點的竊電行為作進一步檢測。3.3關聯關系分析將

18、理論線損分析模塊和管理線損分析模塊得出的線損分析數據(包括線損 率、線損原因)集成線損特征數據庫,利用決策樹算法將線損按照分線、分壓、 分臺區以及線損原因進行分類,得出各地區線損分類排行,將數據導入可視化模 塊,通過GIS地圖進行綜合展示,地圖顯示界面同時含各線損因素評估數據,各 地區線損排序情況等直觀報表。將分類后的線損數據利用Apriori關聯算法進行關聯分析,結合電力系統物 理特征,構建關聯規則,進行綜合評估,形成各級線損產生因素及其占比。關聯 法則分析是一種從事物數據集中挖掘頻繁項集的工具,旨在揭示事物之間存在的 關聯關系。線損的關聯分析用于分析線損各因素、物理連接關系或各項線損之間

19、存在的相關關系和關聯規律,可用于研究線損的產生相關關系或線損之間的相關 關系。可以對電力公司電網運行、檢測、降損提供重要的指導作用。主要技術理論4.1理論線損分析4.1.1理論計算(1)平均電流法平均電流法的基本思想為:一段時間平均電流在線路中損耗掉的電能與在相 同時間段實際負荷電能的損耗是相等的。線損計算時要乘以小于1的修正系數, 就是為了減少等效帶來的誤差。計算公式為:(4-1)式中,口代表日線路損耗電量,R為線路電阻,t為線路實際運行時間,口 代表日平均電流,K為形態系數。優點:算法簡單,只需要知道平均電流和計算出形狀系數就可W求得線損; 電量較容易獲得,并且形態系數有一定的公式可循,省

20、去了大量計算工作量。缺點:沒有考慮負荷曲線變化帶來的誤差;形態系數值大小和負荷曲線有密 切的關系,形態系數伴隨負荷曲線變化而變化;計算中只考慮負荷季度的變化, 不考慮負荷晝夜的變化,這必然降低計算結果的精準性。(2)等值電阻法基本思想是在低壓配電線路首端假設一個等值的線路電阻,該等值電阻產生 的損耗等于各個分段線路分段電阻在同時間產生的損耗。已知線路首端的電流、 電壓和負荷數據時,可以計算出首端代表日平均電流匾面,平均電壓四和形態 系數K。根據線路上各節點日平均有功電能求得各節點的平均電流為:(4-2)已知各個線路段的平均電流和電阻,可以計算出各個線路段代表日損耗電 能,公式為:蜘們-3械網時

21、x 24x1。T(4-3)等值電阻的優點:改進的均方根電流方法,解決了低壓配電網線損難計算的 問題;不需要收集很多數據,根據配電網結構參數計算出等值電阻后就可以進行 線損的計算;當配電網結構沒發生變化時等值電阻可直接使用。等值電阻的缺點:推導等值電阻時,沒有考慮實際負荷情況和三相不平衡對 線損的影響,從而該等值電阻求出的線損存在一定的誤差。4.1.2基于聚類的隨機森林算法隨機森林算法是一種集成學習算法,它是一系列的回歸樹的集合,其輸出是 所有回歸樹的預測值的平均值。隨機森林算法采用自助重采樣技術,克服了回歸 樹的過擬合問題,大幅提高了模型的性能;而且能夠處理高維度數據,適用于數 值型變量和類別

22、型變量;可以并行化處理,以適應大數據集。隨機森林算法的步 驟如下:設訓練集中預測變量為X=x1,x2,,xn,響應變量為Y=y1,y2,, yn;對b=1, 2,bs重復步驟c、d;通過自助重抽樣技術從X、Y中隨機選擇一個子樣本集Xb、Yb作為訓練 集;對Xb、Yb訓練一個回歸樹模型rfb。在回歸樹的訓練中,采用分類回歸樹CART (Classification And Regression Tree)算法。它是一種二分遞歸分割的技術,將當前的訓練集分成2個子訓練 集,使得生成的樹的每個非葉子節點都有2個分支。非葉子節點代表特征,葉子 節點就是樹模型給出的預測值。基于聚類的隨機森林模型如圖4-

23、1所示,首先要利用電力公司線損系統、生產管理系統(PMS)營銷系統(CMS)的多 源數據,構建線損特征數據庫。其次,對于分類部分,從線損特征數據庫中選擇相應的特征,然后利用層次 聚類算法進行聚類分析。對已經分好類的臺區,利用決策樹算法進行精細分類, 建立分類模型,用于線損率估計部分。最后,對于估計模型部分,首先根據臺區類型選擇相應的臺區特征輸入隨機 森林算法,算法輸出相應臺區的隨機森林模型,最后給出各類臺區的估計模型。 估計模型估計的是連續變量,采用平均絕對誤差MAE (Mean Absolute Error)和 標準化均方誤差NMSE (Normalized Mean Squared Err

24、or)指標衡量。圖4-1基于聚類的隨機森林模型4.2竊電分析竊電分析主要分為三個部分組成,典型用電特征分析、異常用電檢測和竊電 檢測。4.2.1典型用電特征分析典型用電特征分析的核心就是對用戶進行精細化分類。本項目擬采用基于決 策樹思想的層級分類結合聚類算法的方法對海量用戶進行精細化分類。(1)層級分類法層級分類法是基于決策樹思想的新型分類方法。它的主要思想就是運用不同 的節點將海量用戶不斷細分,類似于一個樹杈形狀。該方法的重點在于節點的選 取,節點一定要具有科學性、可操作性。本項目中擬采用的節點如下:選擇電壓等級為第一級節點,對用戶進行分類;挖掘年負荷曲線特征屬性,例如負荷率,假期用電差異,

25、峰谷用電差異等, 作為第二級節點,對用戶進行聚類;挖掘日負荷曲線特征屬性,例如負荷率,峰谷用電等,作為第三級節點, 對用戶進行聚類。(2)FCM算法FCM算法是一種基于劃分的聚類算法,它的思想就是使得被劃分到同一簇的 對象之間相似度最大,而不同簇之間的相似度最小。模糊C均值算法是普通C 均值算法的改進,普通C均值算法對于數據的劃分是硬性的,而FCM則是一種柔 性的模糊劃分。FCM算法步驟如下:步驟1:用值在0,1間的隨機數初始化隸屬矩陣U,使其滿足式(4-4)中 的約束條件。Z二 = IF = 1n(4-4)步驟2:用式(4-5)計算c個聚類中心ci,i=1,,c。-1%(4-5)(4-6)步

26、驟3:根據式(4-6)計算價值函數。如果它小于某個確定的閥值,或它 相對上次價值函數值的改變量小于某個閥值,則算法停止,否則繼續步驟4。其中,舊表示第i個聚類中心與第j個數據點之間的歐幾里得距離。步驟4:用式(4-7)計算新的U矩陣。返回步驟2。(4-7)4.2.2異常用電檢測異常用電檢測,其實就是通過比對用戶用電行為與典型特征,如果相差過大 則說明該用戶用電行為發生了改變,即判定為異常用電。通過對用戶進行精細化 分類,得到典型用電特征,反映了用戶正常用電情況下的用電特征,通過計算用 戶的日負荷曲線與其日負荷特征曲線相似性就可以篩選出疑似異常用電用戶,然 后再比對該類用戶的其他用電特征,便可以

27、得出異常用電用戶。由于用戶的負荷曲線是由一系列與時間順序的相關的負荷值所組成的,因此 可以采用基于時間序列的相似性來度量來判斷兩條曲線之間的匹配度。常用的相 似性度量有相關系數和歐氏距離。(1)基于相關系數的相似性度量相關系數反映的是變量之間線性相關度的一種度量。通過相關系數我們就可 以知道兩條曲線之間的變化趨勢。在用戶正常的用電情況下,用戶的負荷變化一 般會有一定的規律,因此可以采用相關系數作為評價用戶負荷曲線與其負荷特征 曲線之間的相似性。假設用戶考察日的負荷曲線為X二(口,),用戶日負荷特征曲線為E;= A*廣 也二皿-於翼叫-矛L=(MT)則相關系數r為:(4-8)通過計算兩條負荷曲線

28、之間的相關系數我們就可以判斷曲線的變化趨勢。若 相關系數越大大,則說明兩條曲線之間的相似度越大;若相關系數越小,則說明 兩條曲線之間的相似度越小,越有竊電的嫌疑。(2)基于歐氏距離的相似性度量歐氏距離可以看作是多維空間點與點的幾何距離。歐氏距離側重于考慮了兩條曲線在值上的相關性。兩條負荷曲線之間的歐氏距離為:(4-9)當兩條負荷曲線之間的歐氏距離越大時,則說明曲線之間的相似性越小,越 有竊電的嫌疑;當兩條負荷曲線之間的歐氏距離越小時,則說明曲線之間的相似 性越大,竊電嫌疑越小。本項目在進行相似性度量之后,若有竊電嫌疑,要再與該類用戶其他典型特 征進行匹配,例如學校在假期時用電減少,但不能判定為

29、異常用電。4.2.3基于PSO優化的SVR竊電檢測模型支持向量機回歸(Support Vector Regression, SVR)是用于解決回歸問題 的支持向量機。它是建立在支持向量機(Support Vector Machine, SVM)的原理 上的,廣泛用于預測、異常檢測等領域,與BP神經網絡相比,不會受到樣本的 影響而陷入局部最優解。SVR的基本思想如下:設訓練樣本集為(x1,y1),(x2,y2),,(xn,yn),xi位m維向量,yi為對 應的目標值,線性回歸函數為|廣偵)=巧尤+珥,我們需要尋找可使得f(x)與之間的差值最小,所以線性回歸問題可以轉換成約束條件下的最優解問題。采

30、用 拉格朗日乘子法求解約束問題,最后得到的線性回歸函數為:() 一 ;= 1何廠匕)(矽+ 0(4-10)引入核函數匝止絲頊也,最后求得非線性擬合函數為:f (工)-:=產(氣閔(踞-” ;)+ &(4-11)粒子群算法(Particle Swarm Optimization, PSO)來源于鳥類覓食過程的 模擬和研宄。它的基本思想是通過群體之間的協作和信息共享來尋找最優解。粒 子群算法具有記憶特點,可以動態跟蹤當前的搜索狀態,調整搜索策略。粒子群 算法相對于其他算法來說比較簡單,收斂速度比較快,而且具有較好的全局搜索 性。PSO-SVR算法的流程如下圖所示:圖4-2 PSO-SVR算法的流程

31、圖PSO-SVR算法的主要步驟如下:Step 1:選擇訓練樣本數據;Step 2:設置PSO的相關參數,如種群規模、慣性權重系數、迭代終止條件、 粒子的速度和位置的圍;Step 3:初始化粒子種群,包括每個粒子的初始位置和初始速度;Step 4 :通過訓練樣本數據以及粒子的位置參數建立SVR模型,并計算其 k-折交叉驗證的平均均方誤差作為每個粒子的適應度函數值;Step 5:對每個粒子更新其當前最優位置以及粒子群的全局最優位置;Step 6:更新每個粒子的速度以及位置;Step 7:判斷是否結束,若結束,則輸出最優參數,否則跳轉到Step 4;Step 8:將最優參數帶入到SVR模型中并通過樣

32、本數據進行訓練得到 SVR模型,此時所建立的模型即為優化后的模型。4.3 Apriori關聯算法Apriori算法是一種逐層搜索的迭代式算法,其中k項集用于挖掘(k+1 )項 集,這是依靠它的先驗性質的:頻繁項集的所有非空子集一定是也是頻繁的。通 過這個性質可以對候選集進行剪枝。用k項集如何生成(k+1)項集呢,這個是算 法里面最難也是最核心的部分。這需要通過以下步驟:(1)連接步。此步驟用于從頻繁k-1項集集合產生候選k項集集合。為了 計算出Lk,根據Apriori性質,需要從Lk-1選擇所有可連接的對連接產生候選 k項集的集合,記作Ck。假設項集中的項按字典序排序,則可連接的對是指兩個 頻繁項集僅有最后一項不同。例如,若Lk-1的元素11和12是可連接的,則11 和l2兩個項集的k-1個項中僅有最后一項不同,這個條件僅僅用于保證不產生 重復。(2)剪枝步。此步驟用于快速縮小Ck包含的項集數目。由Apriori性質可 得,任何非頻繁的(k-1)項集都不是頻繁k項

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論