人機混合增強智能 課件全套 1-5 簡介、基礎 -直覺推理_第1頁
人機混合增強智能 課件全套 1-5 簡介、基礎 -直覺推理_第2頁
人機混合增強智能 課件全套 1-5 簡介、基礎 -直覺推理_第3頁
人機混合增強智能 課件全套 1-5 簡介、基礎 -直覺推理_第4頁
人機混合增強智能 課件全套 1-5 簡介、基礎 -直覺推理_第5頁
已閱讀5頁,還剩322頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人機混合增強智能內容

介紹《人機混合增強智能》課程簡介近年來人工智能的發展現狀與不足:ChatGPT、DeepSeek、OpenAI文生圖、文生視頻等人工智能歷史回顧:五大流派、人工智能的數學及相關基礎:度量、標準化、交叉驗證、偏差方差分解、精度/召回率等人機混合智能增強的基礎理論特征表示:多模態信息統一表征;共享子空間學習;對比學習;知識蒸餾高維數據理解:降維(PCA、ICA、LDA、流形學習、NMF、對比學習)、可視化、持續同調稀疏學習、統計學習理論(感知機的數學原理)深度學習、穩定擴散模型、Transformer、VAE、VIT面向人機協同的視覺知識理論視覺知識的重要性視覺知識和視覺理解脈沖神經網絡:編碼、學習不確定估計理論及相關知識:不確定性、歸納偏置人機混合增強的在線演化

人機協同知識學習強化學習、逆強化學習、模仿學習、離線強化學習、基于人類反饋的強化學習,GPRO(成組相關優化的強化學習)在線知識演化:小樣本弱監督自學習、領域自適應與遷移學習、持續學習、課程學習、自步學習動態自適應人機協同:人機協同系統框架、人機協同模型與控制、人機協同關鍵技術建模特點、建模方法、關鍵技術;路徑規劃、協同決策、研究現狀;人的狀態、習性、技能:人體模型構建、姿態估計研究、步態識別腦機接口、腦神經媒體組腦機接口與類腦智能;腦神經媒體組學;腦機存算一體技術(憶阻器、存算一體);精準安全腦機;腦機接口的意義人機混合增強智能的直覺推理面向人機協同的因果學習與因果發現概率圖模型:表示、學習、推斷;圖神經網絡;因果推斷;人機協同知識推斷技術反事實推斷;群智協同推斷;貝葉斯推斷基于直覺推理的場景推理直覺推理機制與認知地圖;基于直覺的場景推理;人機協同直覺推理技術人機協同的感知、認知與決策人在回路的人機協同;面向決策規劃的人機協同;面向控制執行的人機協同;人機協同驗證平臺人機協同的圖像生成與創意人機協同的圖像生成;人機協同的多媒體生成;人機協同的創意設計人機混合增強智能

-歷史與基礎歷史概要孕育期(1956年前)初創期(1956年—1980年)成長期(1981年-2000年)交叉研究期(2001年---)孕育期(1956年前)特點:數理邏輯、自動機理論、控制論、信息論、人工神經元理論、電子計算機等學科的建立和發展1936:圖靈--理想計算機模型的自動機理論1943:麥卡洛奇(McCullochWS)和皮茲(PittsW):M-P模型(數學模型)1945:馮諾伊曼(VonNeumannJ)提出存儲程序概念,1946年研制成功第一臺電子計算機ENIAC1946年:薛定鄂:《生命是什么》---

開啟人工智能的大門1948:香農(ClaudeShannon)的信息論1948:維納(WienerN)控制論1949:赫布(DonaldHebb):學習中人腦神經元之間連接的規律1950:圖靈(AlanTuring):“圖靈測試”1.圖靈機1936年提出了作為通用計算機模型的圖靈機非真實的,想象的理論模型

是否存在一臺圖靈機,可以判定任意圖靈機的輸出結果。1)是否存在一臺機器,它能確定在磁帶上的任意機器是在“循環”的機器。這里循環包括停機、未能繼續它的計算任務。2)是否存在一臺機器,它能確定在磁帶上的任意機器曾經打印過一組給定的符號。圖靈機也可以看作是,現在主流計算機采用的馮?諾依曼架構的雛形版圖靈測試vs

中文房間(ChineseRoom,JohnSearle,1980)初創期(1956-1980)達特茅斯學院1956:人工智能正式成為一門學科摩爾、麥卡錫、明斯基、塞弗里奇、所羅門諾夫斷言:學習或者智能的任何其他特性的每一個方面都應能被精確地加以描述,使得機器可以對其進行模擬1956:紐厄爾(AllenNewell)和西蒙(HerbertA.

Simon)提出了“邏輯理論家”程序。1956:塞繆爾(ArthurSamuel)研制了跳棋程序1958:麥卡錫(JohnMcCarthy)提出表處理語言LISP1958:王浩

數學定理證明(IBM704)

吳文俊1959:塞繆爾創造了“機器學習”一詞第一代AI研究者的預言1958年,H.A.Simon,AllenNewell:“十年之內,數字計算機將成為國際象棋世界冠軍。”“十年之內,數字計算機將發現并證明一個重要的數學定理。”1965年,H.A.Simon:“二十年內,機器將能完成人能做到的一切工作。”1967年,MarvinMinsky:“一代之內……創造‘人工智能’的問題將獲得實質上的解決。”1970年,MarvinMinsky:“在三到八年的時間里我們將得到一臺具有人類平均智能的機器。”1997年5月11日,深藍成為戰勝國際象棋世界冠軍卡斯帕羅夫的第一個計算機系統。人工智能的科學基礎人工智能主要受啟于神經科學的研究19世紀末James發現神經元相互連接。20世紀中期McCulloch和Pitts發現神經元的工作方式是“興奮”和“抑制”。Wiener,《控制論》(Cybernetics)Ashby,《大腦設計》Arbib,《大腦、機器與數學》道金斯,《自私的基因》《盲人鐘表匠》哥德爾,艾舍爾,巴赫,《集異壁之大成》神經科學的兩種學說HoraceBasilBarlow1921---DonaldO.Hebb1904---1985Barlow倡導單細胞學說,假設從初級階段而來的輸入集中到具有專一性響應特點的單細胞,并使用這個神經單細胞來表象視覺客體。Hebb倡導多細胞集成學說,主張視覺客體是由相互關聯的神經細胞集合體來表象,并稱其為ensemble。人工智能早期研究1956:Rosenblatt的感知機1965:Samuel的符號機器學習1965:費根鮑姆(EdwardFeigenbaum)DENDRAL專家系統1969:Minsky

(1927-2016)和Papert的著作《Perceptron》1973:Lighthill萊特希爾報告,組合爆炸

AI寒冬二十世紀八十年代的研究

符號機器學習取得進展專家系統vs知識工程:通用--》特定

計算學習理論-PAC(概率近似正確)模糊數學,1965--,扎德

神經網絡的研究計算學習理論

(ComputationalLearningTheory:COLT)1984年,Valiant提出機器學習應該以模型概率近似正確(1-

)為指標,而不是以概率為1為指標。學習算法必須對樣本集合的規模呈多項式。統計機器學習、集成機器學習等方法的理論基礎。神經網絡:第二次高潮Hopfield模型(1982)Grossberg的ART模型(1986)Kohonen模型(1989)……最有影響的是Remulhart等人提出的BP算法(1986)Minsky的“Perceptron”著作(1988)Hopfield神經網絡神經元–晶格自旋相互作用:相鄰、跳連接遞歸神經網絡電路設計模擬Hopfield,JJ(April1982).

"Neuralnetworksandphysicalsystemswithemergentcollectivecomputationalabilities".

ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica.

79

(8):2554–2558Kohonen網絡(自組織映射網絡,SOM,1982)原型說vs流形學習認知心理學Selfridge(1959)提出“鬼城”

(Pandemonium)

模仿:大腦視覺機理Autoencoder人工智能研究熱點的變遷

1989年(Carbonell),1997年(Dietterich)

符號機器學習。

符號機器學習。

連接機器學習。

統計機器學習。

遺傳機器學習。

集成機器學習。

分析機器學習。

強化機器學習。什么是學習機器學習是人工智能的核心研究領域之一任何一個沒有學習能力的系統很難被認為是一個真正的智能系統學習的定義如果一個系統能夠通過執行某種過程而改進它的性能,這就是學習----

Simon.利用經驗改善系統自身的性能--

[T.Mitchell,Book97]統計機器學習的特點

算法的泛化能力Vapnik的有限樣本統計理論[1971]

線性空間的學習算法(劃分)SVM(fromperceptron)“泛化誤差界”研究的演變

PAC界(Valiant[1984])。VC維界(Blumer[1989])。

最大邊緣(Shawe-Taylor[1998])。最大邊緣(Shawe-Taylor,1998)改進線性可分問題如果一個樣本集合是線性可分的,它們一定可以構成兩個不相交的閉凸集。這樣,線性可分問題變為計算兩個閉凸集的最大邊緣問題。線性不可分問題---核函數可以證明,一定存在一個映射,稱為核函數,將在歐氏空間定義的樣本映射到特征空間(一個更高維的空間),使得在特征空間上,樣本構成兩個不相交的閉凸集。集成機器學習---弱模型1994年,Kearns和Valiant在PAC學習基礎上,將PAC區分為強可學習與弱可學習。概念強可學習:存在一個復雜性為P的學習算法來識別一組概念的錯誤率以概率1-

小于一個很小的常數

。概念弱可學習:存在一個復雜性為P的學習算法識別一組概念的正確率僅比隨機猜測略好。即,只要略大于50%。猜想:弱模型可以提升為強模型嗎?對一組概念的模型(假設)滿足弱可學習條件,稱為弱模型或弱假設。Schapire的貢獻1990年Schapire通過一個構造性方法對上述猜想作出了肯定的證明。命題是這樣陳述的:一個概念是PAC弱可學習,當且僅當它是PAC強可學習的。

人工智能五大流派及人物派別問題解決方案符號主義(Symbolist)知識結構逆演繹算法(Inversededuction)聯結主義(Connectionist)信度分配反向傳播算法(Backpropagation)進化主義(Evolutionaries)結構發現基因編程(GeneticProgramming)貝葉斯派(Bayesians)不確定性概率推理(ProbabilisticInference)統計學習(Analogizer)相似性核機器(KernelMachine)決策樹:思維鏈的鼻祖貝葉斯派統計學習理論最大邊緣(Shawe-Taylor,1998)遺傳算法Transformer(2017)Attentionisallyouneed!

1936194319461948194919511954195619571958195919651967196919741980198119841986199719982000200220052009201120122014201520171960201820192020202120222023圖靈提出通用計算機模型的“圖靈機”McCulloch和Pitts提出神經元模型MP模型馮諾依曼等建成ENIAC電子數字積分計算機維納《控制論》香農探討機器下棋的可能性1950圖靈測試明斯基與艾德蒙茲創建第一個人工智能實驗室第一次機器翻譯達特茅斯學院AI誕生Newell&Simon38條數學定理證明Rosenblatt提出感知機王浩IBM704用3-4分鐘證明220條數學定理Wiesel

&

Huber從貓視覺皮層發現神經元具有方向性第一臺工業機器人誕生塞繆爾,跳棋程序SemanticNetworks語義網JosephWeizenbaum建成第一個智能聊天機器人EliZAZadeh提出模糊邏輯Newell

&

Simon通用問題求解(GPS)互聯網誕生Minsky&Papert出版《感知機》1971SHRDLU虛擬機器人1966-1972Shakey第一個可移動機器人人工智能寒冬1973萊特希爾報告LISP,AI標準編程語言走出寒冬專家系統盛行MyCin醫療診斷,19791968費根鮑姆等提出DENDRAL第一個專家系統化合物分子結構推斷日本研發第五代計算機Cyc,百科全書項目Rumelhart、Hinton、Williams提出反向傳播算法Hornik&Cybenko提出萬能近似定理1992關聯規則:啤酒與尿布深藍戰勝國際象棋世界冠軍加里-卡斯帕羅夫Vapnik統計機器學習支持向量機YannLeCun卷積神經網絡LeNet-5流形學習iRobot家用機器人Roomba問世斯坦福大學和谷歌:Google街景項目李飛飛ImageNet圖像分類數據集IBM的AI計算機Watson在游戲Jeopardy中擊敗人類冠軍Alex和Hinton等提出AlexNet網絡深度學習取得性能突破GPU得到廣泛使用谷歌:知識圖譜IanGoodfellow提出生成對抗網(GAN)何愷明等提出殘差網

(ResNet)2016谷歌AlphaGo擊敗圍棋世界冠軍李世石谷歌AlphaZero谷歌大腦提出TransformerOpenAI提出生成式預訓練模型GPT

AlphaStar擊敗星際爭霸II職業玩家OpenAI提出生成式預訓練模型GPT-3谷歌無人車行駛300萬以上公里谷歌AlphaFold預測蛋白質結構谷歌提出面向對話的語言大模型LaMDAOpenAI提出:ChatGPT,GPT-4,DALL-E3Meta提出圖像分割模型SAMMidJourney公司:人工智能繪畫2006Hinton在《Science》提出深度網絡人工智能的萌芽期(1936-1955)

人工智能的初創期(1956-1980)人工智能的成長期(1981-2011)人工智能的第三次熱潮(2012-至今)

1979福島邦彥提出新認知機20242OpenAI,SoraGPT-4o12025DeepSeek神經網絡的再次復興2006GeoffreyHinton在《Science》上發表了深度學習的論文伯茲曼機:解決了初始權值的問題重新把神經網絡的研究帶回了人們的視野InternationalConferenceonLearningRepresentation會議NeuralInformationProcessingSystems會議(NeruIPS)大量新的應用成果圖像、語音、自然語言處理2012,GoogleBrain視覺系統的分級信息處理典型的深度學習模型RBM

(Hinton,2006)DBN(DeepBeliefNetwork)CNN(LecunYan,1998)RNN/LSTMMultimodalRBMConvolutionalNeuralNetwork(LeNet-5)

Y.LeCun,L.Bottou,Y.Bengio,andP.Haffner.Gradient-basedlearningappliedtodocumentRecognition.ProceedingsoftheIEEE,Nov.1998.為什么先考慮數字識別呢?郵政,信件ILSVRC-2009/1400萬張全尺寸圖像

ImageNetLargeScaleVisualRecognitionChallenge更深的層。超越人類深度學習成功的原因大數據的形成深層CNN網絡新型技巧的運用GPU硬件性能的提升分布式技巧的研究特征工程End-to-End的革命基礎知識BasicprocedureofmachinelearninginbigdataBasicConcepts

Variables/Attributes

/

Features

Samples,Measures

Classes/Categories

LearningModels

EvaluationCriteria

ModelSelectionTypesofVariables/FeaturesContinuousvariables(連續變量){temperature,humidity}

(溫度、濕度)Discretevariables(離散變量){thenumberofstudentspresent}(到場學生數量)Nominate(Categorical)variables名義(范疇)變量{male,female},{blonde,brown,red,brunette}(男、女)Ordinalvariables:clearordering有序變量(清晰的序){low,mediumandhigh},

{elementary,middle,andhighschool}FilmRatingSystems(電影評分)Intervalvariables(區間變量)[0.70.8];[$90,000

$95,000]Attributes/Features鳶尾花iris數據集包含150個數據集,分為3類,每類50個數據,每個數據包含4個屬性。可通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬于(Setosa,Versicolour,Virginica)三個種類中的哪一類常出現問題:數據缺失/數據異常Attributes/Features距離計算SimilaritymeasureMeasuresNormalizationStandardScore:FeatureScaling:EuclideanDistanceMahalanobisDistanceMachineLearningBasicCategories Supervisedmodel

(監督):labeleddataUnsupervisedmodel

(非監督):unlabeleddataSemi-supervisedmodel

(半監督):bothlabeledandunlabeleddataReinforcementlearning

(強化學習):learnbyinteractingwithanenvironment

Self-supervisedlearning(自監督學習)TypesofMLalgorithms:Prediction

(預測):predictingavariablefromdata Classification(分類):assigningrecordstopredefinedgroupsClustering(聚類):splittingrecordsintogroupsbasedonsimilarityAssociation-rulelearning(關聯規則學習):seeingwhatoftenappearstogetherwithwhat----beeranddiaper關聯規則的例子:宜家和諾獎的關系本文研究了作者和頂級期刊編委的關系。發現大約43%的文章里作者與刊物的編輯有學術聯系。如果是編委的博士生和學校同事也會改進他們的論文發表結果,當這個編委負責一個期刊的評審時。BasicLearningTypesCurve

(Surface)fitting

RegressionClustering

■ClassificationEvaluationMSE(MeanSquareError)/RMSEPrecision

/

RecallROC/AUCFalsepositive/Truepositive回歸:分類TypeIvsTypeIIerrors(安防vs胰腺癌)ROCandAUC受試者工作特征曲線

(receiveroperatingcharacteristiccurve,簡稱ROC曲線),又稱為感受性曲線(sensitivitycurve)ExampleModelSelectionModelSelectionOverfittingCross-validationLeaveoneoutOverfittingindataBiasandVarianceTradeoffErrorduetobias:Thedifferencebetweentheexpected(oraverage)predictionofourmodelandthecorrectvaluewhichwearetryingtopredict由試圖預測的正確值和模型的期望預測之間的差異Errorduetovariance:Thevariabilityofamodelpredictionforagivendatapoint.給定數據點情況下,模型預測的波動Bias–VarianceTradeoffBiasandVarianceTradeoffModelComplexityModelComplexity(Selection)Occam’sRazor

principle:entitiesmustnotbemultipliedbeyondnecessitySimpleisbetterParameterComplexityCodeComplexityMinimumDescriptionLengthVCComplexityStatisticalLearningtheoryCross-Validationandleaveoneout常用分布:

Gaussian(Normal)DistributionProsandConsofGaussianDistr.Pros:Easytoderivate/SymmetricEasygeneralizetoamixtureofGaussiandistributionsCons:AssumptionisstrongLotofotheralternativedistributionsCannotdealwithcomplexdistributionsHeavytaildistribution張軍平復旦計算與智能學院DimensionReduction

----理解數據幾何結構OutlineMotivationSurveyOurWorksDiscussion/ConclusionMotivationBigData

BiometricAuthenticationInternet/MobileVisualSearchMultimediaBioinformaticsPrecisionMedicineCurseofDimensionalityUnderlyingDimensionVisualizationComputationalEfficiency三維空間超球的體積計算:立方體體積計算:隨著維度d的增加,有:幾乎所有的高維空間都會遠離其中心,最小值和最大值的距離會不可辨別(CopiedfromMarioKoppen)對高斯分布的影響(CopiedfromWiki)Survey可視化技術

StatisticalProperty(統計特性)---PCA/ICADiscriminability(判別特性)---LDAUnderlyingDimension(內在維度)----

Manifold

Learning

ConditionalIndependent(條件獨立)---SDRandKDR

Correlation(相關性)---CCA

Sparsity(稀疏性)---NMF,Lasso………高維數據可視化的策略主成分分析--數據的統計特性MaximizeVariance(最大化方差)

X矩陣N*d;d維度;N樣本數MinimizeResidualErrors(最小化殘差)SingleValueDecomposition(奇異值分解,SVD)

(CopiedfromMarkusRingnér)Discriminability(判別性)LinearDiscriminantAnalysis(LDA)Within-varianceBetween-varianceObjective:Dimensionreduction:ManifoldLearning[H.S.Seung&D.D.Lee.2000][Tenenbaumetal,2000][RoweisandSaul,2000]UnderlyingDimensionGeneratedfromLow-dimensionalvariables.InterpretabilityExample:PCASubspaceofTranslatedFacesDefinitionAmanifoldisatopologicalspacethatislocallyEuclidean(i.e.,aroundeverypoint,thereisaneighborhoodthatistopologicallythesameastheopenunitballin).IsometricMapping[Tenenbaumetal.,2000]Step1:

Givenaneighborhoodsize$k$,computepairwisedistanceofeachpointanditsneighboringpoints.Step2:ComputeGeodesicdistancebetweenfar-awaypointsbyutilizinggraphdistanceStep3:EmployMultidimensionalscalingtocalculateitslow-dimensionalsubspace.LocallyLinearEmbedding[RoweisandSaul,2000]LLEStep1:Computetheneighborsofeachdatapoint,XiStep2:ComputetheweightsWijthatbestreconstructeachdatapointXifromitsneighbors,minimizethecostinEq.(1)Step3:ComputethevectorYibestreconstructedbytheweightWij,minimizingthequadraticforminEq.(2)byitsbottomnonzeroeigenvectors.

推導拉格朗日-->求導--->歸一化StochasticNeighborEmbeddingConvertingthehigh-dimensionalEuclideandistancesbetweendata

pointsintoconditionalprobabilitiesthatrepresentsimilaritiest-SNEDespitethestrongperformanceofthesetechniquesonartificialdatasets,theyareoftennotverysuccessfulatvisualizingreal,high-dimensionaldataSammonmapping,CCA,MVU,LLE,LE,Isomap,SNE

areincapableofretainingboththelocalandtheglobalstructureofthedatainasinglemap.Avariationofstochasticneighborembedding

SignificantlybettervisualizationbyReducingthetendencyofcrowdpointstogetherinthecenterofthemap.Crowdproblem—t-SNE

SymmetrizedversionoftheSNEcostfunctionwithsimplergradients

UsesaStudent-tdistributionratherthanaGaussiantocomputethesimilaritybetweentwopointsinthelow-dimensionalspace.

Heavy-taileddistributioninthelow-dimensionalspacetoalleviateboththecrowdingproblemandtheoptimizationproblemsofSNE.Studentt-distributionStudentt-distributionwithonedegreeoffreedomHeavy-taileddistributioninthelow-dimensionalmap.實際效果MNISTSparsity---InterpretabilityFeaturerepresentation(Parts):Non-negativeMatrixFactorization

[SeungandLee,1999]數據的拓撲結構--克萊因瓶GunnarCarlsson,TigranIshkhanov,VindeSilva,AfraZomorodian.OntheLocalBehaviorofSpacesofNatural

Images,InternationalJournalofComputerVision,vol.76,no.1,pp.1-12,2008.人機混合增強智能

-在線演化與動態自適應張軍平,復旦計算機2.26起,

2025智華103;晚11-13節在線演化與動態自適應人機協同知識學習在線知識演化動態自適應人機協同人的狀態、習性、技能腦機接口、腦神經媒體組人機協同混合增強智能關鍵技術人在回路的混合增強智能--》引入人的作用基于認知計算的混合增強智能--》依賴于生物啟發中國工程院院士、中國自動化學會理事長鄭南寧院士,2017年7月,西安,混合智能專委會成立大會沙龍

混合智能---孤立依賴人或機都不可靠2019年3月10日,埃塞俄比亞航空一架波音737MAX8飛機發生墜機空難2014年3月8日,馬航mh370失聯人機差異:一千個人中有一千個哈姆雷特外部環境:復雜性、開放性、脆弱性機器需具備感知、推理、決策(執行)的認知模型解決現實問題認知模型訓練需要構建機器與人類專家之間的交互框架學習人類智能擅長能力:創新、決策、想象與聯想等抽象能力底層邏輯/結構差異機器:馮諾依曼結構:進行符號系統的編碼/在限定計算框架下利用計算過程處理計算作用人類智能:依賴于腦結構與神經元復雜系統,應對動態、開放的復雜環境人類智能:通過環境適應力與選擇注意力機制來度量風險與收益,提升人的抽象能力環境適應力:漫長進化,外在肢體行為內化到肌肉記憶的基因里,并通過與環境交互來優化交互:零交互(離線專家)、半交互(離線+在線)、全交互(專家設計框架、在線交互)專家交互框架專家行為表示:包括經典概率圖、圖神經網絡、因果表示、解耦表示學習等方式,構建了一個可供學習的知識表示——專家知識空間專家知識表征提取:包括經典的特征約束集、深度監督學習、深度無監督學習等方式,對專家知識空間進行特征表示的抽取,提煉出專家知識的通用表征,從而能方便地對智能體提供有效的指導——專家指導信息專家策略學習:包括基于對抗式訓練、基于魯棒性訓練、基于互信息篩選等學習方式以及基于內在好奇心、貪心等探索策略,將專家指導更好地融入智能體的學習過程中,提升智能體策略的訓練過程——策略學習專家知識表示、提取、學習過程,只是智能體做決策的一部分信息來源智能體還要接受來自環境的信息反饋,以及更細化更具體的目標任務信息,從而更精確地規范智能體的行為,并且在環境歷史經驗的常識下,以近似專家指導的行為完成目標任務人機協同知識學習

強化學習模仿學習逆強化學習離線強化學習ProbabilitiesonallillegalmovesAction(movewiththehighestscore)DecisionmakingandactionPerceptionAlphaGo強化學習框架ReinforcementLearningAnagentinteractswithitsenvironmentbyperformingactions

andlearningfromerrorsorrewards.Nopredefineddata!

Andnopredefineddistribution(i.i.d)!Reward-based.ElementsofReinforcementLearning(8要素)

Agent:thelearnerandthedecisionmakerEnvironment:wheretheagentlearnsanddecideswhatactionstoperform1.Action:asetofactionswhichtheagentcanperform2.State:thestateoftheagentintheenvironment3.Reward:foreachactionsselectedtheenvironmentprovidesareward4.策略(policy):5.價值函數:6.獎勵衰減因子gamma:[0,1]之間取值環境狀態轉化模型:在狀態??下采取動作??,轉到下一個狀態s′的概率探索率??:該比率主要用在強化學習訓練迭代過程中,由于一般會選擇使當前輪迭代價值最大的動作,但會導致一些較好的但沒有執行過的動作被錯過。因此我們在訓練選擇最優動作時,會有一定的概率??不選擇使當前輪迭代價值最大的動作,而選擇其他的動作強化學習基本定義軌跡期望回報最大化后獲得的為最優策略pi*MDP基礎設定框架貝爾曼方程(Bellmanequation)強化學習延伸設定強化學習Actor-Critic框架:旨在解決HighVariance和Highbias

之間的矛盾129130Actor-Critic算法流程131132模仿學習/學徒學習

ImitationLearning/ApprenticeLearning在強化學習的經典任務設置中,所能獲得的反饋信息僅有多步決策后的

累計獎賞但在限時任務中,往往能得到人類專家的決策過程范例

例如在種瓜任務上能得到農業專家的種植過程范例。從這樣的范例中學習,稱為“模仿學習”,也被稱為“學徒學習”。模仿學習技術旨在模仿給定任務中的人類行為。通過學習,觀察價值和動作之間的映射關系,對智能體進行訓練,使其能夠從示教中學習并獨立執行任務

在人機協同情形下,強化學習側重于提升樣本有效性

模仿學習的范式有助于以最少的專家知識來教授復雜的任務。通用的模仿學習方法可以將講授任務的問題減少為提供示范的問題,而無須針對任務進行顯式編程或設計獎勵功能

模仿學習鼓勵智能體在不與環境交互的前提下學習知識,這種學習在自動駕駛車輛避障、醫學輔助術前診斷等交互成本偏高的場景中具有很大應用前景

RLfD:基于不完美專家數據的模仿學習算法如RLfD(RL

from

Demonstration),在軟約束下的RLfD,以及基于GAIL(GenerativeAdversarialImitationLearning)算法的改進,這些方法在不同程度上提升了模仿學習范式的泛化能力,降低了對應用場景的要求,同時提升了強化學習算法的樣本使用效率。示例生成對抗模仿學習算法(GAIL)(Ho,2016)在GAIL當中,策略網絡對應于GAN中的生成器,用于根據狀態來得到動作判別網絡用于判別一個狀態動作對是由專家數據產生還是由策略產生,兩者相互對抗。在專家數據量足夠的一個前提下,GAIL可以得到一個較好的策略網絡和判別網絡。它繞開了中間的逆強化學習過程,直接從數據中學習策略。生成對抗訓練的技巧被廣泛使用在擬合判別器以及估計狀態和動作的分布等算法的重要環節中。就專家數據而言,GAIL通常具有相當高的樣本效率。但是,就訓練期間的環境交互而言,它并不能特別有效地利用樣本。與基于模型的方法相比,它通常需要更多的環境交互。多模態生成對抗模仿學習方法

(Hausman,2017)該方法能夠在非結構化的示教數據中學習,并且能夠在不同環境下進行模仿學習,以適應不同類型的任務,一定程度上提高了模型的魯棒性

DQfD基于行為克隆的想法,有學者提出了從示范中進行深度Q學習的方法(DQfD),嘗試通過加入時序差分和正則化損失來平衡專家數據,加速學習過程

Hester等人以類似的思路將DDPG

(deepdeterministicpolicygradient,深度確定性策略梯度算法)與專家數據相結合,構建出了DDPGfD算法

策略選擇的動作是函數決定,效率高但缺乏探索Off-policy策略,緩解探索問題,即采樣的policy是隨機的,待優化的是確定的Nair等人后續也提出了類似于DQfD和DDPGfD的算法,該算法在DDPG的基礎上增加了示教數據經驗回放緩沖區(DemonstrationReplayBuffer),利用最小二乘損失訓練策略網絡,同時將強化學習中已有的損失函數與視角數據中的最小二乘損失相結合,使得策略網絡去學習專家數據中的動作

第三人稱模仿學習

鑒于許多模仿學習的方法都有第一人稱專家數據的局限性,因此從無監督的第三人稱的示教數據進行學習,讓智能體通過觀察其他人達成目標的過程來達到模仿專家的效果。這種學習方式從想法上與示教學習的目標不謀而合,同時也方便使用蒸餾學習等方法進行優化,利于跨領域進行算法層面的優化和集成。

DQfD不足單純使用模仿學習的效果非常依賴于專家數據的質量。例如,在自動駕駛中,專家數據可能總保持良好的駕駛習慣,其中缺乏或罕見緊急情況下的人類反應,這使得智能體無法學習特定駕駛情形下的處理能力,安全駕駛也就無從談起。

模仿學習方法將問題直接轉化為監督學習的問題,降低了學習難度,一定程度上提高了樣本的使用效率

。盡管這類算法能夠加速學習過程,但缺陷在于表現不會勝過專家示教數據

基于最小化分布差異的示教學習如今露頭角,盡管仍然存在如分布度量近似計算損失的性能等等問題,但對比基于標準強化學習、逆強化學習的算法而言,具有更高的數據利用率、更低的計算復雜度、更穩定以及更快速的學習效率,是發展的熱門方向不足模仿學習算法通過專家示例軌跡進行訓練學習,其性能嚴重依賴于專家樣本

生成對抗模仿學習是近年提出的一種高效的模仿學習算法,它使用基于生成對抗網絡的判別器獎勵,指導智能體策略朝著專家策略的方向優化,最終實現模仿專家策略的目的。然而,模仿的過程不會一蹴而就,需要逐步指導,才能實現性能最優;同時受限于生成對抗網絡框架的局限性,平衡判別器與生成器是算法實現的關鍵所在。

模仿學習的仿真平臺已經高度還原真實場景,但與現實場景仍然存在很大的差距,導致難以對多任務場景的課程模仿學習,可以試圖借鑒數字孿生的思想,減小仿真環境到現實世界的鴻溝(Sim2RealGap),也可加入了語義分割的輔助任務來加強模型對場景的理解,進一步利用在線的模仿強化學習通過在線交互來達到模型預測的修正,從而真正實現模仿學習算法在自主駕駛、工業運維、疾病診斷等領域的應用落地。

基于強化學習的專家示教分析框架專家示教數據的獲取與表示專家知識表示在

強化學習中的指

導方式直接式先驗式:指導對象為價值網絡預訓練:策略網絡或價值網絡回放式(replay):交互經驗池間接式作用于價值網絡的目標作用于策略網絡的目標作用于收益網絡的目標基于專家聚類結構的引導性探索算法實驗結果逆強化學習(InverseReinforcementLearning,IRL)強化學習專注于根據收到的(人為設定)獎勵信號

學習智能體(agent)在任務上的行為

和強化學習在思路上相反,在給定策略或觀察到的行為的前提下,推斷獎勵函數的問題

主要問題和主要挑戰,包括執行準確推理的難度和可推廣性、對先驗知識的敏感性以及解決方案的復雜度隨問題規模的非線性增長。在給定一個策略(optimalornot)或者一些操作示范的前提下,反向推導出馬爾可夫決策過程的獎勵函數,讓智能體通過專家示范(experttrajectories),來學習如何模仿決策復雜問題的一種算法

使用觀察到的一個智能體的行為對另一個智能體的偏好進行建模的問題,從而避免強化學習中常被詬病的人為設定獎勵函數方法

IRL選擇獎勵函數

R

來優化策略,并且使得任何不同于πE

aE~πE

)的動作決策(

a∈A?aE

),其中盡可能產生更大損失。其中

aE=πE(s)

aE~πE(?|s)

是專家最優動作優勢無須人為設定獎勵函數。預先設定獎勵函數的要求將強化學習的實用性、最優控制理論限制在一定范圍內,然而逆強化學習則可以擴展強化學習的適用性,并減少任務說明的人為設計,前提是可以提供所需行為的策略或演示。可以提升泛化性能。獎勵函數用簡潔的形式來表示一個智能體的偏好,并且同樣適用于另一個同類智能體。如果目標主體和其他主體共享相同的環境和目標,那么就可以按照原樣使用學習的獎勵函數,即使是主體的環境略有不同,逆強化學習也可以提供有效幫助。

逆強化學習的潛在應用廣泛

分類

用數學的形式來表示逆強化學習的思想

最大邊際化問題,根據這個思想發展的算法包括學徒學習、最大邊緣規劃(Maximummarginplanning,MMP)方法、結構化分類和神經逆強化學習

學習一個能夠使得專家策略下的軌跡的期望回報遠高于非專家策略的獎勵函數,從而達到無監督學習獎勵函數的目的。在這樣的優化目標下,習得的獎勵函數會使得專家和非專家的差距不斷增大最大邊際化的最大缺點是,很多時候不存在單獨的獎勵函數

使得專家示例行為既是最優的又比其他任何行為好很多,或者有很多不同的獎勵函數會導致相同的專家策略。也就是說,這種方法無法解決歧義的問題,所學到的獎勵函數往往具有隨機的偏好

基于模型概率的方法,并利用概率模型發展出了很多逆強化學習算法,如最大熵的逆強化學習、相對熵逆強化學習、最大熵深度逆強化學習,基于策略最優的逆強化學習等等

貝葉斯的方法,它將軌跡當中的狀態-動作對視為觀察結果,以促進貝葉斯更新候選獎勵函數的先驗分布。這種方法為逆強化學習提供了一種不同但有效的思路,并且在這種方法當中,獎勵函數通常沒有預設的固定結構

分類和回歸之類的經典機器學習框架也在逆強化學習中發揮了重要的作用,但這類方法也同時受到了逆強化學習并非直接監督的影響

離線強化學習(無交互)基于內嵌某種準則的獎勵函數,從中習得一個具有決策特性的策略行為克隆:專家的動作標簽,具有直接模仿的特性,策略的目標是對標簽的最大似然離線強化:具有序列決策的特性,策略的目標是為了使內嵌某種準則的獎勵函數最大優點:例如,在金融領域里,學習

不依賴于

因為在線交互會產生巨大損失的策略。在健康醫療領域里,避免因在線交互的診治方案導致的不良反應等。不需要為了應用強化算法而構建一個高仿真度的虛擬環境基于人類反饋的強化學習Step1:預訓練語言模型+有標簽數據微調(可選)Step2:訓練獎勵模型Step3:通過強化學習微調語言模型SFT(SupervisedFine-Tuning):有監督的微調,使用正常的instructionfollowing或者對話的樣本,來訓練模型的基礎對話、聽從prompt的能力RM(RewardModeling):基于人類的偏好和標注,來訓練一個能模擬人偏好的打分模型RL(ReinforcementLearning):在前面的SFT模型的基礎上,借助RM提供反饋,來不斷通過PPO的強化學習框架來調整模型的行為。RLHF有效的解釋多樣性假設:在SFT期間,模型的輸出預計在某種程度上與演示的回答相匹配。例如,給出提示“語言的示例是什么?”,如果演示的回答是“西班牙語”,而模型的回答是“Java”,則模型的回答可能會被標記為錯誤。負反饋假設:演示僅向模型提供積極信號(例如,僅向模型顯示良好的回答),而不向模型提供消極信號(例如,向模型顯示不良回答的樣例)。強化學習允許我們向模型顯示消極信號。幻覺假設:RLHF應該有助于消除幻覺DeepSeekMath:PushingtheLimitsofMathematicalReasoninginOpenLanguageModels(arxiv’2402)KIMIK1.5:

ScalingReinforcementLearningWithLLMS價值函數模擬每一步的價值(詳細)規則或者RM,幫助判斷輸出結果的傾向計算A的基準長COT,監督信息過遠DeepSeekMath:PushingtheLimitsofMathematicalReasoninginOpenLanguageModels(arxiv’2402)normalize,平滑PPO基本公式和ref不差太多這樣定義相對優勢,如果采樣都不好呢DeepSeek-R1在監督微調(SFT)的基礎上,引入GRPO進行強化學習(RL)微調。首先,對于每個輸入提示,模型根據當前策略生成多個可能輸出,為后續獎勵計算提供豐富信息。獎勵模型依據特定任務需求對每個輸出打分。隨后對獎勵值進行歸一化處理,使不同樣本之間的獎勵具有可比性,并計算相對優勢對比同一輸入下的多個輸出,減少方差提高學習效率。根據相對優勢調整策略模型,使其生成高獎勵輸出的概率增加,低獎勵輸出概率減少。同時,為防止策略在更新過程中發生劇烈變化,引入KL散度約束確保模型穩定性。循環執行上述步驟,逐步優化策略,使模型在特定任務上的表現不斷提升。當模型性能達到穩定狀態時,停止訓練或調整策略。在強化學習訓練完成后,DeepSeek-R1進一步采用拒絕采樣技術(RejectionSampling,RS)。之后DeepSeek-R1進入最終的強化學習階段。在模型具備較強的通用性后,再次應用GRPO算法,使其符合安全性要求,強化模型適應性。DeepSeek開發群體相對策略優化算法是算法變革的關鍵轉折點。GRPO在價值網絡應用、獎勵計算方式、策略更新機制、計算效率等許多方面優于PPO。在價值網絡使用方面,PPO算法中,策略網絡(actor)和價值網絡(critic)通常是并行訓練的。PPO依賴于一個與策略模型大小相當的價值網絡,來估計優勢函數,調整策略網絡的參數。每次更新時,PPO需要對每個時間步的狀態進行評估,計算復雜度高。GRPO不再需要顯式的價值網絡,而是在分組范圍內對多個采樣輸出進行對比,隨后依據對比結果選取更優策略。在每次更新過程中,不再依靠價值函數來實施評估,而是通過比較同一狀態下多個輸出的獎勵情況,直接判斷哪些動作更為優良,這極大降低計算與存儲方面的需求。在獎勵計算方式方面,PPO采用廣義優勢估計(GAE)來計算優勢函數。GAE需要對每個動作的即時獎勵和未來獎勵的折扣總和進行估計,并且要結合多個時間步的獎勵信息,計算過程較為復雜。GRPO通過采樣一組動作,并直接計算這些動作的獎勵值,進行歸一化處理,得到相對優勢。這種方法避免復雜的GAE計算,直接依賴當前的獎勵信號,計算更加簡潔高效,靈活性更強。策略更新機制方面,PPO通過裁剪概率比(clipoperation)來限制策略更新的幅度,確保策略分布的變化在可控范圍內。由于每次更新都需要裁剪,計算效率受到一定影響。GRPO采用KL散度約束來控制策略更新的幅度。KL散度度量的是兩個概率分布之間的差異,用于對比新舊策略分布,從而限制更新的幅度。引入KL散度項,GRPO可以精確控制每次策略更新的幅度,確保策略不會發生過大的變化。計算效率方面,PPO需要反復維護和更新價值網絡,并依賴于廣義優勢估計(GAE)來估計每個動作的優勢,在每輪訓練中需要大量計算和存儲數據,計算效率更低。GRPO通過避免價值網絡的使用,顯著減少計算量并提高計算效率,降低內存占用。計算效率高使GRPO能夠提高訓練效率,減少模型訓練時間,更適合大規模語言模型的微調。DeepSeek團隊開發的GRPO算法,摒棄耗時且計算成本高昂的人類反饋強化學習和傳統監督微調過程,使訓練過程高效低耗,模型性能在某些任務上取得顯著提升,模型進一步與人類偏好對齊,提高訓練效率。研究人員在訓練DeepSeek-R1-Zero時,發現模型出現“頓悟時刻”,即在完全沒有人工標注數據的情況下,模型展現出持續的自我進化能力。“頓悟時刻”為推進AI系統的自主性和智能化提供寶貴的啟示。Deepseek-R1中的強化學習特點純強化學習,沒有監督學習微調,沒有評價模型(CriticModel)頓悟時刻AhaMoment自我演化(Self-evolution)計算效率提升小結數據利用率是深度強化學習的難點,因為需要智能體與環境交互產生數據,再用數據學習改善策略的方法:當前策略或同策略(on-policy)和異策略(off-policy)。異策略算法數據利用率高,可以使用歷史數據,而且可以同時學習多個技能的策略,但是穩定性差。同策略算法在學習過程中無法重新利用歷史數據,因為每次行動策略更新后,之前的數據就非當前策略,而是異策略的數據了。但是,其穩定性比異策略強。獎勵函數的設計是另一難點:某些復雜決策任務,很難設計,即使專家也難以設計好的。基于模型的強化學習(Model-BasedReinforcementLearning)有著比異策略強化學習方法更高的數據利用率。基于模型的強化學習通常會先收集數據,學習一個動力學模型,之后基于模型,學習策略。對于有些任務,學一個好的模型比學一個好的策略要容易。逆強化學習領域,少有方法可證明分析其技術的樣本或時間復雜度,并將其與其他方法比較。對于逆強化方法的復雜性和準確性,現如今普遍缺乏理論指導,并且大多數側重于經驗比較來提升性能。有一個比較關鍵的缺點是,現有的方法集很難合理且高效地擴展到連續的狀態或動作空間,這一定程度上限制了逆強化學習的發展和實際的應用。逆強化學習許多方法都依賴于參數估計技術。元啟發式算法可以有效地估計最佳參數,如杜鵑搜索算法(也有稱布谷鳥搜索算法)、粒子群優化、螢火蟲算法是一些比較著名的元啟發算法。元啟發式算法的優勢不依賴于凸性,而是可以相對快速地搜索一般空間,并且致力于找到全局最優解,因此,元啟發式算法也為逆強化學習的發展提供了新的視野離線強化學習禁止與環境的交互,意味著限制了智能體對高獎勵區域的探索,若靜態數據集中不包含高獎勵的樣本,則學習出來的策略在真實環境中應用,難以保證卓越的性能表現,因此靜態數據集的構成需要均勻地包含高獎勵的樣本從真實交互收集得到的靜態數據集中習得策略,同樣需要解決分布偏移(distributionshift)的問題如果遇到了靜態數據集中沒出現過的樣本,該如何處理?這本質上是一個反事實推斷的問題。分布偏移中的“分布”,可以看作是狀態邊際分布、動作分布、狀態-動作的聯合分布的偏移。對于分布偏移的處理,兩者出發點不盡相同

標準的監督學習如模仿學習中,假設數據獨立同分布,其目的是希望通過擬合數據得到的模型分布,對于真實分布來說具有良好的表現性能與泛化性,來解決分布偏移的問題離線強化學習,通過序列決策的建模,希望通過靜態數據集得到一個在真實測試環境中稍微不同、比數據集表現稍好的策略如何從靜態數據集中訓練出來的策略更好地與專家交互,而不是與環境交互,并融合專家的反饋進行持續地增量學習(incrementallearning),是潛在方向在線知識演化

小樣本弱監督自學習領域自適應與遷移學習持續學習課程學習自步學習小樣本弱監督自學習小樣本學習(Few-ShotLearning,FSL)要求機器僅利用少量樣本學習解決問題的模型監督信息少,易過擬合引入先驗知識是關鍵解決方法一:數據增廣從數據集中變化數據,可以利用傳統機器學習算法,例如,構造一個函數將不同類別之間的變化施加到原始樣本中從而增加樣本數量;充分利用弱標簽或無標簽數據,這兩類數據都相對容易獲取,可以通過對完全監督標簽數據進行學習來構造預測器,給弱標簽或無標簽數據提供更為完善且易學習的標簽,再將這些數據加入原始數據集。利用與目標數據集相似但更為龐大的數據集進行數據生成,例如利用GAN來進行數據生成。算法二:模型方面數據層模型層算法層多任務學習(MultitaskLearning)、嵌入學習(EmbeddingLearning)、外部記憶學習(LearningwithExternalMemory)以及基于生成模型方法解決方案三:算法層面數據層模型層算法層主動學習

樣本的多樣性能增強模型的泛化性和抵抗噪聲

的魯棒性防止人工錯誤標注、惡意標注對抗樣本以及長尾分布的樣本數據也會影響模型性能目標:減少標注成本主動學習:讓模型主動去優先選擇盡可能少且最具有價值的無標注樣本來進行標注,使模型達到所期望的性能它從未標記樣本集中對樣本進行查詢,通過選擇函數采樣出最具有代表性的無標注樣本讓具有領域知識的專家進行標注,隨后將標注后的樣本放入標記樣本集讓模型繼續學習,如此往復循環迭代子模學習(Submodularlearning)不確定性準則和差異性準則

如何定義樣本查詢選擇函數,即以何種策略去選擇最具有代表性、區分性的樣本來進行標注,兩類準則基于信息熵選擇較高不確定性樣本的熵值袋裝查詢方法(EntropyQuerybyBagging,EQB)基于投票機制選擇預測分歧大的樣本委員會投票方法(QuerybyCommittee,QBC)基于誤差減少的樣本查詢方法(ExpectedErrorReduction,EER)基于方差減少的樣本查詢方法(VarianceReduction,VR)基于密度權重的樣本查詢方法(Density-weightedMethods,DM)深度主動學習主動選擇策略轉化為回歸問題進行學習,讓機器自己根據學到的知識來選擇出具有價值的樣本進行標注(Konyushkova等)利用生成對抗網絡學習有標注樣本和無標注樣本之間在隱空間中的表征,再利用判別器來選擇需要進行標注的樣本(Sinha等)使用希爾伯特施密特準則估計未標注集合中樣本的相關性,從而挑選出信息量最大的待選樣本(Jain等)將圖上的主動學習建模為序列馬爾可夫決策過程并通過強化學習的手段來得到一種可遷移的主動學習策略(Hu等)使用分布式的子模學習方法從圖上找到覆蓋率最高且具有代表性的節點(Bateni等)小結主動學習體現了人機協同的特點。它依賴于人類學習得到的先驗知識讓智能體學習、并自主選擇有價值樣本的能力,再通過具有領域知識的專家進行標注,讓智能體繼續學習,實現了人在回路中的智能學習。生成層級式:在GAN網絡引入層級式的金字塔結構,不同模塊負責不同尺度圖像塊的數據分布學習,可以簡潔且高效地應對上述挑戰。建立具有不同尺度子結構的GAN模型,以各個子結構分別承擔對圖像不同尺度語義信息理解,并研究子結構間分工、耦合、信息傳遞的關聯機制以合理高效組織成緊密整體,保證在少數據量情形下也能實現對樣本特征的充分提煉。

解耦生成針對模型無法區分前景與背景的難題,同時引入兩個不同的隱變量分別負責前景與背景部分的生成。同時,考慮到前景與背景生成結果的差異化要求,采用并行獨立的層級式結構分別用于生成前景與背景為了保證不同層級之間特征信息交互的質量與生成圖像的多樣性,研究針對不同尺度子結構的歸一化方法及數據增強技術。前景分支以從完整樣本中分離出來的前景部分作為學習目標,在該分支中,為了保證模型在生成多樣性形態變化的同時保留原有正確的語義結構,基于示例標準化(InstanceNormalization),設計輕量級前景分支信息提取模塊,獲得經過數據增強后的原始圖像蘊含的深層次風格信息例:GPT-4o,分層處理文生圖風格提取模塊:為最大化生成樣本的多樣性,設計風格提取模塊,跟隨整體模型一起完成端到端的訓練而無須預訓練。風格提取模塊的輸入由單張自然圖像樣本經過常規數據增強后得到,輸出是一個系數張量和一個偏置張量,并作用在原始樣本的數據流上。該模塊將經數據增強后的原始圖像轉化為風格信息以供模型學習,指導模型在生成多樣性形態變化的同時、保留原有正確的語義結構。注意力機制和可變形卷積設計:可變形卷積使用附加偏移量以增加模塊中的空間采樣位置,是一種簡單高效的建模方法。引入可變形卷積層,可減輕數據增強帶來的噪聲干擾。并引入通道注意力機制,對通道間的依賴關系進行建模,以引導模型更關注目標本身而忽略其他干擾因素的影響,從而提升模型的穩定性與自適應能力。基于主動學習的人機協同算法設計:

針對人工手動標注標簽成本較高的問題,研究基于不確定性抽樣查詢策略的主動學習方法,基于數據跨域相似性度量實時更新查詢策略的目標函數,實現主動學習過程中高價值樣本的優先標注。研究基于圖的半監督分類方法,通過代價最小的路徑對標簽進行傳播,彌補標記樣本量不足的缺陷。針對流式新增樣本中標記樣本所占比例較小的問題,研究基于拉普拉斯回歸主動學習的大數據流分類算法,通過閾值判斷當前數據流的標記樣本量,有效提高數據流的分類準確率。

領域自適應與遷移學習TransferLearning利用已有標簽數據來輔助無標簽新數據進行學習任務DomainAdapta

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論