




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
人工智能技術基礎生成式人工智能模型第九章
生成式人工智能模型(AIGeneratedContent)是基于統計學習算法和深度神經網絡的人工智能模型,能夠從數據中學習并生成新的、與原始數據類似或不同的數據。生成式人工智能模型的目標是通過生成數據來模仿人類創作的過程。AIGC目前已經在許多領域得到了廣泛的應用,如自然語言處理(NLP)、圖像生成、音頻合成、視頻生成等。
本章重點闡述幾種經典生成模型的工作原理與應用,包括VAE、GAN以及流模型,特別是目前AICG的主流模型——擴散模型與穩定擴散模型。9生成式人工智能模型簡介目錄Contents9.1變分自編碼器(VAE)生成對抗網絡(GAN)流模型(Flow-basedModel)擴散模型(DiffusionModel)穩定擴散模型(StableDiffusionModel)本章小結9.29.39.49.59.601變分自編碼器9.1變分自編碼器9.1.1原理概念變分自編碼器VAE是一種對自編碼網絡改進的生成模型,其基本結構由編碼器(Encoder)與譯碼器(Decoder)組成。編碼器將輸入編碼為低維數據,即將數據“壓縮”或者轉換為一種低維的編碼特征,實現降維與壓縮,建立一種高維形象數據與低維度抽象特征碼的對應關系。譯碼器則是從特征碼空間重構出等同于輸入數據的形象數據,建立了一種低維度特征碼與高維度形象數據的映射關系。由于采用了無監督的訓練方式,這種結構也稱為自編碼器。編碼器-譯碼器基于訓練數據所產生的特征碼空間與訓練數據樣本一一對應,沒有訓練的數據則無法從特征碼空間生成。9.1變分自編碼器9.1.1原理概念變分自編碼器(VariationalAutoencoder)不再像自編碼器那樣對訓練數據一一編碼,而是利用神經網絡訓練出一組以均值和方差為輸出參數的混合高斯模型,以該模型作為隱變量,譯碼器從混合高斯模型中采樣重構出高維形象數據,由于高斯混合模型是一種連續分布,在添加擾動基礎上將產生出相似于訓練數據的新數據,從而實現了生成功能。樣本空間中的每個樣本通過神經網絡編碼器產生一個對應的高斯分布,如A,B,C,用均值與方差表示,從而整體形成混合高斯模型。譯碼器工作時,則是從混合高斯模型分布中進行采樣,進而生成與樣本相似但又不同的新數據。9.1變分自編碼器9.1.2訓練方法VAE的訓練方式屬于沒有標簽的無監督訓練方式,即輸入數據和輸出數據均是一樣的樣本,旨在通過自編碼的方式,訓練出隱空間編碼,進行生成工作時,直接從隱空間編碼中采樣即可。由VAE模型生成的人臉圖像混合概率密度函數:損失函數:02生成對抗網絡9.2生成對抗網絡生成對抗網絡(GenerativeAdversarialNetworks,GAN)是一種生成式模型,目的是生成與源數據分布類似的數據,簡單來說就是“照貓畫虎”的過程。生成對抗網絡由一個生成器與一個判別器組成。生成器學習從潛在空間到感興趣數據分布的映射,判別器則將生成器生成的候選者與真實數據分布區分開來,而生成器則要盡可能地欺騙判別器。生成器和判別器相互對抗、不斷調整參數,最終目的是使判別器無法判斷生成器輸出結果的真假。9.2生成對抗網絡假設需要生成器能夠生成一個老虎的圖像,那么訓練集將設定為一系列的老虎圖像。開始時生成器從噪聲中也許能生成出一只狗的圖像,判別器給出的狗與虎的相似度很小,進而反饋回生成器以調整生成器的參數,若干次循環后,生成器從生成狗的圖像逐漸能夠生成出一只貓之后,判別器無法從顏色外形等簡單特征中分辨出貓和虎的區別,則對自身進行參數修正,以學習虎的紋理細節以判斷貓和虎的區別,進而在兩者參數不斷更新且相互博弈對抗中使生成器逐漸生成出與訓練集相似的圖像,以達到最終實現生成的目的。生成對抗網絡GAN的結構圖
生成對抗網絡GAN的結構主要由兩部分組成,以神經網絡為基礎的生成器與判別器。
生成器從噪聲中生成感興趣的欲生成的內容,判別器將訓練數據與生成的結果進行判別。生成器根據判別器的結果進行調整,判別器根據訓練數據與生成結果進行調整。兩者相互成就。9.2.1基本原理9.2生成對抗網絡基于MLP與CNN的GAN結構生成對抗網絡是一種對神經網絡的訓練思路,具體的網絡結構可由各種神經網絡模型實現。如多層感知機MLP,以及卷積神經網絡CNN等。左圖給出了一種可選的網絡結構。9.2.2實現GAN網絡的基本結構LSGANMLP等傳統GAN結構在訓練過程中經常出現梯度消失問題。為了克服這個問題,采用最小二乘的損失來緩解LSGAN。從平方誤差的角度出發,判別器對生成樣本和真實樣本進行編碼,分別為a和b,生成器將生成樣本編碼為c并以此對判別器進行欺騙,進而目標函數可表達為:EBGANEBGAN是一種將能量模型應用到GAN網絡的成功案例,判別器取代概率形式而作為能量函數(或對比函數)明確地構建了EBGAN框架。WGAN模式崩潰在GAN生成器訓練時經常發生,即生成器只能產生非常相似的樣本,可以用Wasserstein距離解決上述問題。Wasserstein距離能使兩個分布沒有任何重疊或相距甚遠時,也可以反應他們之間的距離。9.2生成對抗網絡Mode分數Mode分數是Inception分數的改進,添加了關于生成樣本和真實樣本預測的概率分布相似性度量。為在給定真實樣本下邊緣標注分布在真實數據分布上的積分。與Inception分數不同,它能通過散度度量真實分布與生成分布之間的差異。9.2.3GAN訓練中的生成與訓練集之間的相似評價方法Inception分數對于一個在ImageNet訓練良好的GAN,其生成的樣本送入Inception網絡測試時,對于同一個類別的圖片,其輸出的概率分布應該趨向于一個脈沖分布,以保證生成樣本的準確性;而對于所有類別,其輸出的概率分布應該趨向于一個均勻分布,保證生成樣本的多樣性,不出現模式崩潰的問題。核最大均值差異對于核最大均值值的計算,首先需要選擇一個核函數k,這個核函數把樣本映射到再生希爾伯特空間。在給定一些固定的核函數k下,它度量了真實分布與生成分布之間的差異。Wasserstein距離也叫推土機距離,Wasserstein距離度量實際的有限樣本逼近以衡量兩個分布之間的相似性,當選擇了合適的特征空間,評估度量效果較好,但是計算復雜度隨著樣本數量的增加而增高。GAN網絡在訓練中需要對生成數據與訓練數據之間的相似度進行評價,評價指標大多數基于樣本進評估,這些度量方法均是對生成樣本與真實樣本提取特征,然后在特征空間做距離度量。常見度量方法介紹如下:FréchetInception距離FID是計算真實樣本和生成樣本在特征空間之間的距離來進行評估的。根據高斯模型的均值和協方差來計算兩個高斯分布的Fréchet距離。魯棒性較好,計算效率高效。1-NN分類器采用最近鄰分類器對樣本檢驗以評估兩個分布是否相同。給定兩組樣本,如果二者接近,則精度接近50%,否則接近0%。對于GAN的評價問題,可分別用正樣本的分類精度,生成樣本的分類精度去衡量生成樣本的真實性和多樣性。03流模型9.3流模型GAN網絡在訓練時容易出現模式坍塌或訓練困難的局面,雖然VAE一定程度上解決了GAN網絡訓練不收斂、采樣生成數據簡單等問題,然而VAE模型只能通過優化下邊界函數問題,存在計算復雜、訓練時間長等問題。流模型(Flow-basedModel)是一種不同于上述兩種模型的新思路。其核心思想是將復雜分布數據多次轉化生成簡單數據分布,利用轉化的可逆性,實現將簡單數據逐步生成出相同風格的復雜分布數據,以達到數據生成的目的。9.3流模型9.3.1流模型工作原理流模型基于一系列具有可逆雙向變換的函數,建立起一種先驗分布與實際數據分布間的映射關系,其中先驗分布較為簡單,而實際數據分布較為復雜。根據概率密度的變量替換公式,不需要顯式地計算實際數據分布的概率密度函數,而是通過先驗分布的概率密度以及映射過程產生的Jacobian行列式計算即可。通過復合多個可逆函數以增強模型復雜度以及非線性擬合能力。
流模型中,尋找或給定一種已知的可逆變換f,將給定復雜分布數據(如訓練集數據)轉化為簡單數據分布,從而實現給定隨機簡單分布后生成特定復雜數據。流模型的轉化過程可通過如下式進行表示其中,欲生成的復雜數據x的分布函數px(x)可以由f(x)的分布通過某種對f(x)轉化來表達,其中detDf(x)為函數f(x)的Jacobian矩陣行列式的值,f(x)為可逆函數。因此,復雜的生成問題轉化為復雜的變換問題。然而該方法中一個較為苛刻的條件是需要一個可逆的轉化函數。非線性流模型非線性流模型相對于線性流模型,具有更強的表達能力和更靈活的變換形式。非線性流模型的變換通常采用復雜的非線性函數,如神經網絡。非線性流模型的參數學習通常采用變分自編碼器(VAE)或類似的方法。9.3.2流模型的常見分類方法線性流模型線性流模型是最簡單的一種流模型,將生成過程拆分為一系列線性變換。在每個步驟中,輸入變量與一個可學習的權重矩陣進行乘法操作,然后將結果加上一個可學習的偏置向量。線性流模型的參數可以通過最大似然估計進行學習,通過反向傳播算法進行優化。潛在流模型潛在流模型是一種基于潛變量(LatentVariables)的流模型,它通過對輸入數據進行潛變量變換,使得潛變量與輸入數據具有相同的統計性質。潛在流模型通常采用層次結構來建模潛變量與輸入數據之間的關系,從而實現更靈活的生成過程。潛在流模型的學習和優化通常采用基于似然的推理方法進行。能量守恒流模型是一種基于能量函數的流模型,它將生成過程看作是從一個初始分布向目標分布轉移的過程。能量守恒流模型的參數學習是通過最小化生成數據與真實數據之間的能量差異來實現的。根據流模型中轉化函數f的設計,流模型通常分為線性流模型(LinearFlow-basedModel)、非線性流模型(NonlinearFlow-basedModel)、潛在流模型(LatentFlowModel)以及能量守恒流模型(Energy-basedFlowModel):9.3流模型9.3.3流模型的常見分類方法9.3流模型逐函數流模型即對每步的轉換均設計轉換方法,即f1、f2、...、fn-1、fn分別采用不同函數完成,然而這樣將操作無法將復雜采樣數據特征聯系在一起,且難以制作太多步驟,計算十分繁瑣,訓練也存在困難。線性函數流模型轉換函數采用線性函數:耦合流模型考慮到計算量的問題以及計算復雜性問題,可以考慮將訓練數據進行拆分自回歸流模型自回歸意味著新數據的預測是基于模型過去的數據來進行的,如果設某圖像數據的概率分布為p(x),是像素的聯合概率分布
,當前像素的預測是以前一像素為條件預測,因此設計進而像素的聯合概率近似為條件概率的乘積如下:04擴散模型9.4擴散模型擴散模型(DiffusionModel)是2020年提出的一種生成模型,但其處理問題的思路可追溯至2015年,所涉及理論為隨機過程與隨機微分方程。擴散模型借鑒了分子隨機運動的現象,在微觀上每個分子的運動為布朗運動,但通過能量調控能使其在宏觀上展現出不同的特征。我們無法直接調控每個分子團的運動方式,但能夠得知其無規則運動服從的分布。通過外力作用,每次改變一小步,逐步將完全隨機運動的分子團約束在特定狀態下,完成“生成”過程。9.4擴散模型9.4.1去噪擴散概率模型DDPM擴散模型是一種基于神經網絡的生成模型,經過樣本數據訓練后,能夠從簡單分布數據中生成特定復雜分布數據,即將純高斯噪聲生成指定類型的數據。正向加噪過程:假設初始分布數據為x0,對其不斷添加高斯噪聲分布,逐步產生x1、x2、…、xt-1、xt直至xT,成為完全高斯分布噪聲。所添加的噪聲是已知的,通常為高斯噪聲,多次添加噪聲的操作過程是一個平穩馬爾科夫鏈。反向恢復過程:完全混亂的噪聲中逐步恢復出特定分布數據。由xt逆擴散至xt-1的處理過程是未知且困難的,因此訓練一個U-Net網絡來估計xt至xt-1的噪聲,由于每一步驟的逆過程是不同的,因此t也作為參數作為網絡的訓練數據。9.4擴散模型9.4.1去噪擴散概率模型DDPM正向加噪過程:反向恢復過程:已知:求:貝葉斯:9.4擴散模型9.4.1去噪擴散概率模型DDPM由于
是來源于前向擴散時的噪聲,在已知xt-1情況下添加z獲取了xt,而
是用于估計從xt重構xt-1時的噪聲模型,因此訓練
的近似神經網絡模型時,輸入數據為xt和t,輸出數據為能夠形成xt-1的噪聲,不同模糊步驟t的情況下輸出噪聲不同,所以損失函數表達如下其中,N為標準正態分布基本的擴散模型隨著正向擴散過程的增加,會導致訓練數據增多,計算量增大,并且生成時間也會延長。因此,針對擴散模型的改進版本被相繼提出。9.4擴散模型9.4.2基于分數匹配的隨機微分方程擴散模型
擴散模型中噪聲增加與減少可以采用一種分數評價方法,其核心思想是在對訓練數據添加逐漸增強的高斯噪聲時,訓練一個深度神經網絡模型進行表征,用以評價噪聲的強度,且該評價分數同時可作為生成模型的條件分數。由于評價分數與訓練之間相互獨立,所以能夠使用分數作為噪聲估計的同時評價采樣技術以生成新樣本。
將DDPM和SGM拓展到無限擴散步長或無窮噪聲的情況中,其擾動過程和去噪過程是隨機微分方程的解(StochasticDifferentialEquation,SDE)。在擴散過程中,通過微小擾動添加噪聲,使得復雜的數據分布平滑過渡到簡單已知先驗分布,進而反向求解SDE,逐漸去除噪聲轉換為復雜分布。反向過程中求解SDE以得分作為目標函數,采用神經網絡估計分數,最終生成結果。
基于分數的隨機微分方程擴散模型實際上是用緩慢增加的噪聲破壞訓練數據,然后學習扭轉這種破壞形成的過程以生成新模型,這其中采用了評價分數的機制。9.4擴散模型9.4.2基于分數匹配的隨機微分方程擴散模型正向加噪過程:逆向去噪求解過程:離散化數據前向加噪反向去噪數據預測可能的求解過程加噪求解9.4擴散模型9.4.2基于分數匹配的隨機微分方程擴散模型具體的生成過程如下:前提是已經訓練了一個表示噪聲評分的神經網絡9.4擴散模型9.4.3擴散模型的采樣生成
擴散模型生成問題中,如前述隨機微分方程擴散模型,在生成時需要離散化微分方程進行求解,從而存在離散誤差,離散的步數影響到最終的采樣誤差,步數越小、數量越多生成結果越精確,然而勢必導致計算時間長的問題。因此,
在采樣生成問題上存在無學習采樣和有學習模型提高采樣效率兩類方法。無學習采樣有學習采樣SDE求解器:隨機微分方程求解器SDE求解器分為離散化和數值求解兩個步驟。離散化通常采用歐拉方法或Euler-Maruyama方法進行離散化。然后,使用如Runge-Kutta法來求解離散化的等式。ODE求解器:常微分方程求解器ODE求解器是解決常微分方程的算法。首先將常微分方程組轉化為離散時間點上的等式,然后使用數值求解器來求解這些等式知識蒸餾是一種基于“教師-學生網絡思想”的訓練方法,常用于模型壓縮。做法是先訓練一個教師網絡,利用該教師網絡的輸出和數據的真實標簽去訓練學生網絡。將“知識”從具有高學習能力的復雜模型轉移到簡單模型中。擴散模型中,將知識從一個采樣模型逐步提煉到另一個時。學生模型在被訓練成與教師模型一樣接近產生單步樣本之前,從教師模型中重新加權。在每個蒸餾過程中,學生模型可以將其采樣步驟減半。05穩定擴散模型9.5穩定擴散模型擴散模型由于其強大的生成能力與靈活性,已經被用于解決各種具有挑戰性的任務,包括機器視覺、自然語言處理、多模態學習等。通過對其增加條件控制以生成人們所期望的內容,增加引導信息與條件機制即進一步實現文本生成圖像、文本生成文本、圖像生成圖像、圖像生成文本等。穩定擴散模型主要增加了語言引導,實現了文字生成圖像的目的。輸入一些提示詞,由AI完成的畫作,如“外星的飛船”,“科技感的相機”,“原始的土著人”,“電影感的充滿神奇植物的原野”9.5穩定擴散模型9.5.1LDM隱式擴散LDM解決了當圖像尺寸增大時帶來的計算量劇增問題,尤其是在增加了注意力機制情況下所引起的計算量問題。一張128×128的圖像是64×64圖像像素的4倍,注意力機制層增加以后需要42倍的內存和計算量,一張普通的1080×1080圖像將比之增加約642倍內存與計算量,這是巨大的資源開銷。1.采用VAE結構來壓縮圖像到一個更小的維度。從而簡化了去噪擴散模型的訓練和采樣過程。2.VAE將圖像壓縮至隱空間編碼,在隱空間進行擴散與逆擴散操作。3.條件控制以實現生成控制,條件可以是特征圖、文本等,即通過條件生成指定需求的結果,通過連接開關實現交叉注意力的融合。LDM結構圖潛在空間擴散過程去噪像素空間去噪過程交叉注意力開關連接堆積連接輸入條件語義圖文本知識圖圖像9.5穩定擴散模型9.5.2文本與圖像的關聯方法—CLIP模型圖像的接收往往采用編碼器或U-Net結構,將文字創建數值表示形式,嵌入到網絡中,作為條件控制輸入至U-Net,文本描述轉換為特征向量,該特征向量能夠與圖像特征向量進行相似度比較,從而令全噪聲圖像向著被控制方向生成結果。文本編碼圖像編碼圖像編碼文本編碼預訓練預訓練建立標簽分類數據庫預訓練使用zero-shot預測預訓練9.5穩定擴散模型9.5.3其它條件下的生成模型文字通過編碼與圖像編碼嵌在一起時,能夠控制圖像向著與文字描述方向生成,盡管采用很多方法進行優化,然而生成結果有時并不理想,這是因為文字與圖像的關聯性很弱,生成模型具有不依賴文字仍能生成的特點,進而偏離了文字提示語的預期結果。將文字進行編碼后嵌入圖像空間,同理圖像、語音等均可實現編碼后嵌入圖像空間以控制圖像生成方法與條件控制。條件控制的生成結果信息融合的修補功能9.5穩定擴散模型9.5.4視頻生成不同訓練規模的對比Sora模型2024年初OpenAI公司在DALL-E模型基礎上建立了文本-視頻生成模型Sora,由于該模型繼承了DALL-E3的畫質和遵循指令的能力,因此能夠深度模擬真實物理世界,且能生成具有多個角色、包含特定運動的復雜場景,該模型根據用戶輸入的提示文本能夠創建出長達60秒的逼真視頻。能適應不同分辨率輸出無限循環場景9.5穩定擴散模型9.5.4視頻生成OpenAI公司發布的Sora模型是一種以文本為條件的結合了Transformer架構的擴散模型(ScalableDiffusionModelswithTransformers,DiT),主體是穩定擴散模型,僅將其中的U-Net網絡更換為N個改進的Transformer。DiT結構在Sora模型中的成功應用主要得益于如下幾點的改進:潛在空間編碼,將擴散模型應用于圖像、視頻的潛在編碼空間;Token的使用,將圖像、視頻與文本等多種信息進行統一編碼,隨機變換Patch尺寸、數量能夠實現變尺度的生成結果,并且實現變尺度的輸入。9.5穩定擴散模型9.5.4擴散模型的應用一種利用擴散特性實現的語義分割示意圖。通過聚類找出每個像素可能的類別,進而使用擴散思路逐步對像素進行分類、分割。該方法可視為一種優化過程,通過優化一個能量函數來逐步改進模型的預測結果。在這種情況下,擴散過程可以被看作是在優化過程中的一種迭代算法,每次迭代都會逐步改進模型的預測結果。參考論文:DmitryBaranch
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國鴕鳥養殖項目創業計劃書
- 中國假牙(義齒)項目創業計劃書
- 中國口腔醫院設備項目創業計劃書
- 中國口腔美容醫療項目創業計劃書
- 中國科技檔案管理系統項目創業計劃書
- 中國酒類電子商務項目創業計劃書
- 中國內瘺針項目創業計劃書
- 中國高端農產品項目創業計劃書
- 中國動物呼吸機項目創業計劃書
- 中國電子設計自動化軟件(EDA)項目創業計劃書
- 精裝分包勞務合同協議書
- T/CNESA 1203-2021壓縮空氣儲能系統性能測試規范
- 2025年四年級下冊美術期末測試題附答案
- 店面借給別人合同協議書
- 圖像編輯基礎Photoshop試題及答案
- 宣城汽車精密零部件項目商業計劃書
- 2025至2030中國天文館行業投資前景研究與銷售戰略研究報告
- 2021入河(海)排污口三級排查技術指南
- 行為:2024年全球影視報告-YouGov
- 2025年中考第一次模擬考試卷:地理(陜西卷)(解析版)
- 手機使用課件
評論
0/150
提交評論