




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第三章數據分析與管理02經典的數據分析方法和手段03基于人工智能的分析方法和手段04機器學習在無損檢測中的應用05數據庫管理及大數據技術目錄01概述概述01數據分析是指用適當的統計分析方法,從收集來的數據中提取有用信息和形成結論,并對數據加以詳細研究和概括總結的過程。數據分析的數學基礎在20世紀早期就已確立,計算機的出現和發展促使數據分析得以推廣。數據分析的方法有很多,大致可以分為經典方法和基于機器學習(人工智能)的方法。兩種方法各有千秋,而機器學習的方法代表了未來的發展趨勢。背景經典的數據分析方法和手段02相關分析是研究兩個或兩個以上隨機變量間的相關關系的分析方法。例如,人的身高和體重之間的關系;空氣中的相對濕度與降雨量之間的相關關系都可以是相關分析研究的問題。兩個變量之間的相關程度通過相關系數R來表示,其值在-1和1之間。正相關時,R值在0和1之間,這時一個變量增加,另一個變量也增加;負相關則相反,一個變量增加,另一個變量將減少。R的絕對值越接近1,兩變量的關聯程度越強,越接近0,兩變量的關聯程度越弱。相關分析與回歸分析在實際應用中有密切關系。在回歸分析中,所關心的是一個隨機變量Y對另一個(或一組)隨機變量X的依賴關系的函數形式。相關分析和回歸分析在各個領域都有廣泛的應用。經典的數據分析方法和手段3.1.1相關分析常見的經典的數據分析方法和手段主包括相關分析、方差分析、ROC曲線分析等9種
(類分析方法
(手段)。各方法的詳細情況可以參考相關專業書籍,本書僅做簡要的介紹。
ROC曲線是受試者工作特征曲線(ReceiverOperatingCharacteristiccurve)的簡稱,又稱為感受性曲線(sensitivitycurve)。ROC曲線以虛驚概率(FalsePositiveRate,即在所有陰性病例中被誤判為陽性的比例,簡稱FPR)為橫軸,擊中概率(TruePositiveRate,即在所有陽性病例中被正確判斷的比例,簡稱TPR)為縱軸,采用不同的判斷標準(閾值)得出的不同結果畫出的曲線。ROC曲線分析可把靈敏度和穩定性結合起來綜合評價,是一種非常有效的評估方法。3.1.2ROC曲線分析經典的數據分析方法和手段基于人工智能的分析方法和手段03國際范圍內,對人工智能的發展歷史有一套劃分標準。人工智能技術的發展主要可以分為如下五個時期:孕育時期(1956年前)、形成時期(1956~1970年)、暗淡時期(1966~1974年)、知識應用時期(1970~1988年)、集成發展時期(1986年~至今)。進入21世紀后,人工智能的研究步伐大大加快。2013年Facebook成立人工智能工作室,率先開始進行深度學習研究。2016年,由谷歌旗下DeepMind公司自主研發的Alphago圍棋機器人擊敗韓國選手李世石,起廣泛關注。基于人工智能的分析方法和手段3.2.1人工智能的發展歷程人工智能(英語:ArtificialIntelligence,縮寫為AI)亦稱智械、機器智能,指由人制造出來的機器所表現出來的智能。近年來得到了飛速的發展,甚至在一些影像識別、語言分析、棋類游戲等等單方面的能力達到甚至超越了人類的水平。
人工智能的社會影響日益凸顯一方面,人工智能作為新一輪科技革命和產業變革的核心力量,正在推動傳統產業升級換代,驅動“無人經濟”快速發展,在智能交通、智能家居、智能醫療等民生領域產生積極正面影響。另一方面,個人信息和隱私保護、人工智能創作內容的知識產權、人工智能系統可能存在的歧視和偏見、無人駕駛系統的交通法規、腦機接口和人機共生的科技倫理等問題已經顯現出來,需要抓緊提供解決方案。基于人工智能的分析方法和手段關于智能的定義有很多,通常可以認為智能是知識與智力的總和。具體地說,智能具有下述特征:1)具有感知能力2)具有記憶與思維的能力3)具有學習能力及自適應能力4)具有行為能力簡而言之,通過感知、記憶(存儲)、思維(運算)、學習(糾錯)、適應(訓練)從而產生行為(分析并給出結果)。3.2.2.1人工智能的基本理論在人工智能的研究中有許多學派,如邏輯學派、認知學派、知識工程學派、連接學派、分布式學派以及進化論學派等。同時,人工智能又有多種研究領域,各個研究領域的研究重點亦不相同。一般認為,其應包括機器感知、機器思維、機器學習等幾個方面。3.2.2.2人工智能研究的基本內容基于人工智能的分析方法和手段機器學習(MachineLearning)是人工智能中一個重要的研究領域,被認為是人工智能的基礎。機器學習牽涉的面很寬,本節只是對它的一些基本概念和方語做簡要介紹。一、機器學習的定義機器學習的核心是“學習”,關于學習一般的定義認為:學習是一個有特定目的的知識獲取過程,其內在行為是獲取知識、積累經驗、發現規律;外部表現是改進性能、適應環境、實現系統的自我完善。所謂機器學習(MachineLearning,簡稱ML),就是要使計算機能模擬人的學習行為,自動地通過學習獲取知識和技能,不斷改善性能,實現自我完善,其為人工智能的主要研究領域之一。3.2.3機器學習基于人工智能的分析方法和手段二、學習系統為了使計算機系統具有某種程度的學習能力,使它能通過學習增長知識、改善性能、提高智能水平,需要為它建立相應的學習系統。一個學習系統一般應該有環境、學習、知識庫、執行與評價等四個基本部分組成,各部分之間的關系如下圖圖所示。基于人工智能的分析方法和手段三、機器學習的發展關于機器學習的研究,可以追溯到20世紀50年代中期。但由于受到客觀條件的限制,機器學習直到20世紀80年代才獲得了蓬勃發展。其發展過程可分為如下3個階段。1)神經元模型的研究2)符號學習的研究3)連接學習的研究基于人工智能的分析方法和手段三、機器學習的分類機器學習是人工智能的基礎,也是應用最廣泛的。機器學習可從不同的角度,根據不同的方式進行分類。最常用的是按系統的學習能力分類,即機器學習可分為有監督的學習與無監督的學習,兩者的主要區別是前者在學習時需要教師的示教或訓練,而后者是用評價標準來代替人的監督工作。有監督學習和無監督學習的中間帶就是半監督學習(semi-supervisedlearning,簡稱SSL)。對于半監督學習,其訓練數據的一部分是有標簽的,另一部分沒有標簽。由于沒標簽數據的數量常常遠遠大于有標簽數據數量,采用半監督學習有助于提高準確性,因此,半監督學習目前正越來越受到人們的重視,如Deepmind的AlphaGo為代表的強化學習(ReinforcementLearning,,簡稱RL)也屬于半監督學習的范疇。基于人工智能的分析方法和手段五、機器學習的算法概述數據集(dataset)是數據的集合。在機器學習中,數據集可分為訓練數據(trainingdata)與測試數據(testingdata)。訓練數據用于機器學習過程中,通過對大量數據的處理與分析,將不同變量之間的聯系提煉成函數關系,而測試數據就用于對訓練數據得出的方法進行檢驗。如前所述,在機器學習中根據方法可分為監督學習、無監督學習和半監督學習。其中常用的算法包括分類、回歸、聚類(異常分析)、主成分分析(降維)和關聯分析等。基于人工智能的分析方法和手段五、機器學習的算法概述很多時候我們在訓練集上的誤差很小,但實際用于測試時反而可能更差,原因就在于我們的訓練樣本有限,我們的模型會把訓練集特有的特征認為是所有樣本空間中樣本都應具有的特征,導致泛化能力下降,這種現象就叫作過擬合(overfitting),與過擬合相對的就是欠擬合(underfitting),即會欠缺某些通用特征,導致不符合分類標準的樣本也分到相應的類中。3.2.3.3預測模型的驗證與評價適度擬合、欠擬合和過擬合我們以人臉識別為例,如果訓練集中絕大部分都是成年人,那么當我們將含有兒童頭像的照片給模型時,可能它會認為不是人臉(因為不具有成年人的臉部特征),這時我們就會說過擬合了。而如果它不僅識別了兒童人臉,還將小狗的圖片也識別為人臉,這個時候我們就說是欠擬合了。基于人工智能的分析方法和手段偏差(bias):模型預測值與真實標記的差別稱為偏差。方差(variance):模型的輸出值之間的差異,它表示了模型的離散程度。
偏差與方差的概念基于人工智能的分析方法和手段在一個實際系統中,偏移與方差往往是不能兼得的。如果要降低模型的偏移,就一定程度上會提高模型的方差,反之亦然。造成這種現象的根本原因是,檢測實驗總是希望試圖用有限訓練樣本去估計無限的真實數據。模型過于簡單時,容易發生欠擬合(under-fitting);模型過于復雜時,又容易發生過擬合(over-fitting)。為了達到一個合理的偏移-方差平衡,需要對模型進行認真地評估。基于人工智能的分析方法和手段機器學習在無損檢測中的應用04在無損檢測中,許多時候檢測精度高度依賴于操作人員的判斷水平,為檢測結果的客觀性、一致性等帶來不利影響,也增加了操作人員的負擔。為此,基于AI(機器學習)的輔助判定手段應運而生,以提高檢測精度和降低作業難度。同樣,我們可以應用其機器學習領域對檢測數據進行處理,包括分類、回歸及聚類等功能,其主要對象有:1)分類:內部缺陷(有無、大小)的識別2)回歸:數值指標,如厚度、深度、強度、彈性模量等的回歸3)聚類:結構損傷程度的劃分等相比單純的人工分析,采用機器學習的方法具有以下優點:1)適合于多參數分析2)客觀性強,精度(誤差)穩定性好3)精度可不斷提高機器學習在無損檢測中的應用3.3.1概述判斷模型的優劣,我們需要對誤差(或精度)進行分析。對于分類、回歸、聚類等不同的用途,機器學習的精度評價指標也有所不同。1、分類的精度識別精度的評價指標主要有準確率(錯誤率)、查準率、查全率等。首先,我們來看一個數據集,其中有+和-,同樣,某個模型預測的結果也有+和﹣,各個類型的數量如下表:、機器學習在無損檢測中的應用模型預測+預測-正解+TruePositive(TP)FalseNegative(FN)正解-FalsePositive(FP)TrueNegative(TN)3.3.2預測精度的定義
表3-1識別器精度的評價指標2、回歸的精度評價回歸算法精度的指標主要有平均絕對誤差、最小二乘誤差、決定系數等。3、聚類的精度評價聚類算法精度的指標主要有蘭德指數(Randindex)、互信息(MutualInformation)和輪廓系數(Silhouettecoefficient)等。AI技術在工程領域方面應用除了數據處理層面,在工程報表數字化、路橋巡檢等方面也發揮著顯著的作用,大大節省了人力成本,本節將介紹幾點具有代表性的案例。
1、基于OCR的文字、表單識別
OCR(opticalcharacterrecognition,光學字符識別)文字識別是指電子設備(例如掃描儀或數碼相機、智能手機)檢查紙上印刷或手寫的字符,并翻譯成計算機文字的過程機器學習在無損檢測中的應用3.3.3基于AI的文字及圖像識別OCR文檔識別APP效果圖生成結果效果圖識別睡意檢測模型(醒)
2、人臉識別及安全監測
人工智能在人臉分析方面有著許多成果,其對于工程領域的幫助也不止身份信息識別這一功能。接下來,將介紹人臉分析的另一個實用案例——疲勞檢測系統識別睡意檢測模型(困)睡意檢測模型效果圖(醒)睡意檢測模型效果圖(困)機器學習在無損檢測中的應用
3、裂縫、缺陷識別及勾勒據統計,混凝土結構的損壞有90%以上都是由裂縫引起的,因此,對混凝土結構的健康檢測主要是對混凝土表觀的裂縫進行檢測與測量。基于深度學習的AI檢測方法主要包括3部分內容:混凝土表觀圖像的獲取技術、基于圖像的裂縫自動識別理論與算法及基于圖像的裂縫寬度等病害程度定量化測量方法。機器學習在無損檢測中的應用裂縫識別
4、鋼筋計數鋼筋運輸到工地后,以人工計數的方式清點數量,需反復校對,有時需要花費幾個小時。使用基于人工智能開發的手機APP對準鋼筋橫切面拍照——識別總共不到10秒的耗時便可完成對一捆鋼筋的計數,并且可以有效避免人工清點時所產生漏數、重復數等誤差。機器學習在無損檢測中的應用鋼筋計數APP效果圖預應力孔道灌漿密實度檢測預應力孔道灌漿質量對橋梁的承載力和耐久性都有很大的影響,其密實度檢測中IE法是非常有效的方法。在實際檢測工程中,本書收集了3000余條,采用神經元網絡分類器訓練模型,數據分類只包含密實、部分缺陷兩種分類情況,孔道灌漿AI精度比較如下表:機器學習在無損檢測中的應用結構類型灌漿質量測試次數分類密實分類缺陷準確率T型梁良好82366715681.04%
部分缺陷40821819085.25%箱梁部分缺陷73648325384.66%
全部缺陷3884734187.89%3.3.4基于AI的工程無損檢測彈性波連續采集應用沖擊彈性波法在工程檢測中的應用領域很廣,但其檢測效率一直以來都被詬病,制約其效率的主要因素之一是現場數據采集難以實現連續采集。基于深度學習技術開發的沖擊彈性波信號有效性的自動識別技術,可以達到99%以上的正確率。以某地實際預制梁質量檢測的沖擊彈性波數據為例,該數據中含有大量錯誤數據。通過AI模型對該數據進行篩選分析,成功提取出9個正常波形數據。在此基礎上開發的連續采集技術可大大提高檢測作業效率。機器學習在無損檢測中的應用典型正常波形典型錯誤波形連采數據波形圖篩選后波形圖隧道襯砌缺陷、厚度識別及自動標注針對隧道襯砌的厚度、脫空及內部缺陷等,沖擊回波聲頻法(ImpactAcousticEchomethod,IAE)是一種有效的方法。下圖為典型的IAE后處理圖片機器學習在無損檢測中的應用典型的IAE后處理圖片常見結構缺陷主要包括不密實、脫空、欠厚、超厚四類。訓練采用深度遷移學習,通過繼承成熟的圖像分類神經網絡架構,在自定義數據集上微調適當的分類器。最終實現各種缺陷在IAE后處理圖片中的智能識別及標注。機器學習在無損檢測中的應用某隧道IAE圖片缺陷智能標識效果圖1某襯砌IAE圖片缺陷智能標識效果圖2某襯砌IAE圖片缺陷智能標識效果圖3某襯砌IAE圖片缺陷智能標識效果圖4可見,采用機器學習對無損檢測數據進行自動判識是非常有前景的。但同時由于不同模型、參數的影響,以及訓練模型需要大量的樣本和學習,并且還需要考慮結構特征,明確各個參數對應的力學意義,這些都說明要訓練出能用于實際工程的模型需要一個較長的過程。過程也許是曲折和充滿艱辛的,但隨著人工智能的不斷發展完善,AI技術與無損檢測領域的結合無疑會不斷加深,無損檢測行業必將迎來一次技術革新。機器學習在無損檢測中的應用數據庫管理及大數據技術05隨著通信技術如5G技術的發展以及硬件制造的進步,萬物互聯已逐步實現,各行各業每天產生海量的數據。土木行業內,在建筑工程的全生命周期中也會產生海量的數據,如設計勘探數據、檢測數據、監測數據、維護養管數據等。這些數據包含了建筑結構非常豐富的信息,通過數據分析手段,可以有效地分析出病害缺陷的變化趨勢、形成原因等。隨著數據處理手段的不斷進步,特別是大數據處理技術的快速發展,建筑結構的各類數據的價值已逐步顯現。然而,這些數據往往以各種形式的報告、記錄表、信息表等紙質文檔或電子文檔的形式進行管理存儲。這種管理方式存在數據丟失、分類混亂、冗余等問題,造成數據割裂、碎片化、不連貫的后果,大大降低了數據的利用價值。隨著數據處理技術、人工智能技術及大數據技術的問世,工程中各類數據得到了進一步整合。因此,土木工程需要更高效的數據管理技術。數據庫管理及大數據技術概述數據管理系統的基本功能是按照用戶要求,從大量的數據資源中提取有信息值的數據。針對土木行業數據管理系統,主要是將建筑結構各個環節、不同時期的進行統一的存儲,并對數據展示、分析等應用提供數據支持,建立建筑結構全生命周期數據檔案,實現數據共享。數據庫管理及大數據技術3.4.1數據管理系統數據管理示意圖一、大數據的定義與基本特征關于大數據(bigdata或megadata),麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。大數據包括結構化、半結構化和非結構化數據。數據庫管理及大數據技術3.4.2大數據分析技術二、大數據的分析從分析上看,由于大數據量大、種類多,因此無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。大數據分析一般具備的三個思維方式,即:1)使用全體數據進行分析2)接收數據混雜性,通過數據量大來彌補質量差3)追求相關關系而非因果關系
從相關關系切入則可為數據分析提供新的視角。“啤酒與尿布”的故事發生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難于理解的現象:“啤酒”與“尿布”兩件看上去毫無關系的商品會經常出現在同一個購物籃中。這個現象引起了管理人員的注意,經過后續調查發現,這種現象出現在年輕的父親身上:在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒(考慮到給嬰兒換尿布是件辛苦的事情,因此需要喝點啤酒來犒勞自己)。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025超市租賃合同書范文
- 2025智能安防系統維修保養合同
- 拿下flag之web學習資料(解題思路、salmap常用工具、文件包含)
- 神經膀胱康復護理
- 建筑安全管理體系構建與實施路徑
- 湖北省重點高中智學聯盟2024-2025學年高一下學期5月聯考歷史試卷
- 2025年河南省南陽市方城縣多校中考三模語文試題
- 人教版小學語文一年級上冊期末試題
- 項脊軒志教案課件
- 生物醫學科研繪圖技術體系
- 河南省青桐鳴大聯考普通高中2024-2025學年高三考前適應性考試語文試題及答案
- 山東省煙臺市、德州市、東營市三市東營2025年高考適應性考試煙臺德州東營二模英語試卷+答案
- 2025年共青團入團考試測試題庫及答案
- 2025年上海市16區初三語文一模試題匯編之古詩文閱讀(學生版)
- 人工挖孔樁計算書及相關圖紙
- Java程序設計項目教程(第二版)教學課件匯總完整版電子教案
- 小學音樂說課萬能模板
- 鋼結構監理實施細則(全)
- 附件_景觀工作面移交表
- 民兵軍事訓練大綱【精選文檔】
- 中藥學碩士專業學位指導性培養方案
評論
0/150
提交評論