




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第1版·微課版生成式人工智能基礎第1章大語言模型技術本章介紹大語言模型(LLM)及其相關技術的核心原理、應用和挑戰。LLM通過深度學習和Transformer架構,能夠理解和生成自然語言,它被廣泛應用于聊天機器人、翻譯、教育、科研等領域,但其訓練成本高且易接收數據偏見。本章探討了LLM的關鍵技術,如詞元標記化、詞嵌入、預訓練與微調等,解釋其如何通過上下文關聯和優化算法實現高效的語言處理。第3章大語言模型技術此外,本章還介紹了生成對抗網絡(GANs)、變分自編碼器(VAEs)和流模型等生成模型的原理與應用,展示它們在圖像生成、風格遷移、文本生成等任務中的獨特價值。最后,聚焦于LLM的幻覺問題,分析了幻覺的成因以及緩解方法,強調數據質量、訓練策略和推理機制對提升模型可靠性和準確性的關鍵作用。第3章大語言模型技術01LLM的工作原理02生成對抗網絡03變分自編碼器04流模型目錄/CONTENTS05語言模型基礎06LLM的幻覺PART01LLM的工作原理基于深度學習技術,特別是Transformer網絡架構的廣泛應用,LLM通過學習海量文本數據,模仿人類語言的復雜性,極大提升了AI技術的能力,使得機器能夠更準確地理解、生成和交互自然語言,其工作原理涉及復雜的數學模型、優化算法以及對倫理和社會影響的深刻考量。LLM不僅推動了聊天機器人、智能客服、自動翻譯、內容創作等領域的技術革新,還為新興技術如語音識別、虛擬助理等提供了強大的技術支持,創造更多商業價值,對社會經濟、文化教育、科學研究等多個領域產生了重要影響。3.1LLM的工作原理LLM容易吸收訓練數據中的偏見,因此在數據選擇和模型使用上需要特別注意倫理問題,努力減少偏見和歧視。隨著技術的發展,LLM也在不斷進化,持續學習機制和更高效的學習算法被研究,以提高模型的適應性和效率。3.1LLM的工作原理在語言模型中,“tokens”是指單詞、單詞部分(稱為子詞)或字符轉換成的數字列表。每個單詞或單詞部分都被映射到一個特定的數字表示,稱為詞元(token)。這種映射關系通常是通過預定義的規則或算法完成的,不同的語言模型可能使用不同的標記化方案,但重要的是要保證在相同的語境下,相同的單詞或單詞部分始終被映射到相同的詞元。圖3-1相同的單詞始終被映射到相同的詞元3.1.1詞元及其標記大多數語言模型傾向于使用子詞標記化,因為這種方法高效靈活。子詞標記化能夠處理單詞的變形、錯字等情況,從而更好地識別單詞之間的關系。3.1.1詞元及其標記LLM的訓練需要極高的計算資源,包括大量的GPU(圖形處理器)或TPU(張量處理器),以及相應的能源消耗,這也是其發展的一個重要考量因素。如今,最常見的商業系統是在數千臺強大處理器上同時訓練數周,耗資達數百萬美元。這些程序通常被稱為“基礎模型”,具有廣泛的適用性和長期使用壽命,它們可以用作為許多不同類型專業LLM的基礎,盡管直接與它們交互也是完全可能的。
圖3-2訓練基礎模型3.1.2基礎模型LLM在完成了對大型文本語料庫的“基礎訓練”后,就要進入調整階段。這包括向它提供一系列示例,說明它應該如何禮貌地和合作地回答問題(響應“提示”),以及最重要的是,它不允許說什么(當然,這反映了其開發者的態度和偏見的價值判斷)。初始訓練步驟大多是自動化過程,這個社交化步驟是通過所謂的人類反饋強化學習(RLHF)來完成的。人類審查LLM對一系列可能引起不當行為的提示的反應,然后幫助LLM做出改進。3.1.2基礎模型完成訓練后,LLM接受使用者的提示或問題作為輸入,對其進行轉換并生成一個回應。與訓練步驟相比,這個過程快速而簡單,但它是如何將輸入轉換為回應的呢?模型將這種“猜測下一個詞”的技術擴展到更長的序列上。重要的是,要理解分析和猜測實際上不是在詞本身進行的,而是在所謂的標記上進行的——它們代表詞的一部分,并且這些標記進一步以“嵌入”形式表達,旨在捕捉它們的含義。3.1.2基礎模型LLM首先使用詞嵌入技術將文本中的每個詞匯轉化為高維向量,確保模型可以處理連續的符號序列。這些向量不僅編碼了詞匯本身的含義,還考慮了語境下的潛在關聯。將每個單詞表示為一種特定形式的向量(列表),稱為嵌入。嵌入將給定的單詞轉換為具有特殊屬性的向量(有序數字列表):相似的單詞具有相似的向量表示。想象一下,“朋友”“熟人”“同事”和“玩伴”這些詞的嵌入。目標是,嵌入應該將這些單詞表示為彼此相似的向量,通過代數組合嵌入來促進某些類型的推理。3.1.3詞嵌入及其含義單詞嵌入的一個缺點是它們并不一定解決多義性問題——單詞具有多個含義的能力。處理這個問題有幾種方法。例如,如果訓練語料庫足夠詳細,單詞出現的上下文將傾向于聚合成統計簇,每個簇代表同一個單詞的不同含義。這允許LLM以模棱兩可的方式表示單詞,將其與多個嵌入相關聯。多義性的計算方法是一個持續研究的領域。3.1.3詞嵌入及其含義當你想知道一個詞的含義時,你可能會查字典。在字典里,你會找到用詞語表達的關于詞義的描述,讀了定義后你理解了一個詞的含義。換句話說,就是,通過與其他單詞的關系來表示單詞的含義,通常被認為是語義的一種滿意的實際方法。當然,有些詞確實指的是現實世界中的真實事物。但是,在相互關聯的定義的混亂中有太多的內在結構,關于給定單詞的幾乎所有需要知道的東西都可以通過它與其他單詞的關系來編碼。3.1.3詞嵌入及其含義對于生成任務(如文本創作、對話系統),模型根據給定的初始文本或上下文,生成連續的、有邏輯的文本序列。這通常通過采樣技術(如貪婪采樣、核密度采樣)實現,確保生成的文本既符合語法又具有連貫性。而對于理解任務(如問答、情緒分析),模型需要理解輸入文本的深層含義,這依賴于模型在預訓練和微調階段學習到的語義理解能力。模型通過分析文本內容,提取關鍵信息并給出準確的響應或判斷。3.1.4生成和理解預訓練的目標通常是為了學習語言的普遍規律,模型被訓練去預測給定序列中缺失的單詞(如BERT)或預測序列的下一個單詞(如GPT系列)。在預訓練階段,模型在大規模的通用文本數據上進行訓練,學習語言的基本結構和各種常識。海量的數據集包含互聯網文本、書籍、新聞、社交媒體等多種來源,旨在覆蓋廣泛的主題和語言風格。3.1.5預訓練過程與微調模型通常采用Transformer架構,它通過自注意力機制處理輸入序列,使得模型能夠理解上下文依賴,而不僅僅是相鄰單詞的關系。模型使用如交叉熵損失函數來衡量預測錯誤的程度,并通過梯度下降等優化算法更新參數,以最小化損失函數。3.1.5預訓練過程與微調訓練LLM以解決通用(常見)的語言問題,如文本分類、問答、文檔總結和文本生成等。(1)文本分類:LLM可以通過對輸入文本進行分析和學習,將其歸類到一個或多個預定義的類別中。例如分類電子郵件是否為垃圾郵件,或將博客文章歸類為積極、消極或中立。(2)問答:LLM可以回答用戶提出的自然語言問題。例如可以使用LLM來回答搜索引擎中的用戶查詢,或者回答智能助手中的用戶問題。3.1.5預訓練過程與微調(3)文檔總結:LLM可以自動提取文本中的主要信息,以生成文檔摘要或摘錄。例如可以使用LLM來生成新聞文章的概要,或從長篇小說中提取關鍵情節和事件。(4)文本生成:LLM可以使用先前學習的模式和結構來生成新的文本。例如可以使用LLM來生成詩歌、短故事、或者以特定主題的文章。3.1.5預訓練過程與微調以訓練狗為例,可以訓練它坐、跑、蹲和保持不動。但如果訓練的是警犬、導盲犬和獵犬,則需要特殊的訓練方法。LLM的訓練也采用與之類似的思路。預訓練完成后,在微調階段,模型可以在特定任務上進行微調,在更小、帶有標簽的數據集上進行進一步的訓練,使模型適應特定的語言理解和生成任務。這個數據集通常是針對某個特定任務或領域的,例如醫學文本、法律文本,或者是特定的對話數據。3.1.5預訓練過程與微調微調可以讓模型更好地理解和生成這個特定領域的語言,從而更好地完成特定的任務。根據任務類型,可能需要調整模型的輸出層。例如,在分類任務中,最后的輸出會設計為輸出類別概率;在生成任務中,則可能使用softmax函數來預測下一個單詞。3.1.5預訓練過程與微調PART02生成對抗網絡GANs因其強大的生成能力,在多個領域得到了廣泛應用:(1)圖像生成:如創建藝術作品、設計服裝或產品原型等。(2)視頻生成:用于電影特效制作、游戲開發中的環境生成等。(3)數據增強:在醫療影像分析領域,通過GAN生成額外的訓練樣本來提高模型性能。(4)風格遷移:改變圖像的藝術風格,比如將普通照片轉換為油畫風格。(5)超分辨率重建:從低分辨率圖像中恢復高分辨率細節。(6)文本到圖像:根據描述性文本生成對應的圖像內容。(7)音頻合成:生成語音、音樂等音頻片段。3.2生成對抗網絡生成對抗網絡(GANs)是一種深度學習模型,由伊恩·古德費羅等人在2014年提出。它通過兩個神經網絡的相互博弈來訓練:一個是生成器,另一個是判別器。這兩個網絡通過對抗過程共同進化,目的是讓生成器能夠創造出幾乎無法與真實數據區分的假數據。圖3-3生成對抗網絡3.2.1GAN的基本原理(1)生成器:它學習創建逼真的數據以欺騙判別器,其任務是從隨機噪聲中生成看起來像真實數據的樣本。例如,如果GAN被用來生成圖像,那么生成器會嘗試從隨機噪聲來開始生成逼真的圖像。(2)判別器:它努力區分真實數據與生成的數據,類似于一個二分類器,試圖區分給定的數據是來自真實數據集還是由生成器生成的假數據。3.2.1GAN的基本原理訓練過程中,生成器和判別器交替進行優化:(1)訓練判別器:首先固定生成器,用真實數據和生成器產生的假數據一起訓練判別器,使它能夠更準確地區分真假。(2)訓練生成器:然后固定住已經訓練好的判別器,只更新生成器的參數,目的是為了讓生成器生成的數據更能欺騙判別器,即讓判別器誤以為生成的數據是真實的。3.2.2GAN的訓練過程隨著訓練的進行,理想情況下,生成器將學會生成越來越逼真的數據,而判別器將變得難以區分生成的數據和真實數據之間的差異。最終,當生成器可以完美地模仿真實數據分布時,判別器將無法做出有效區分,此時GAN達到了一種平衡狀態。3.2.2GAN的訓練過程生成對抗網絡(GANs)自提出以來已經衍生出了多種變體,它們各有側重,都有其獨特的特點和應用領域,針對不同類型的問題提供了有效的解決方案。隨著研究的深入和技術的發展,更多的改進和新變種將會不斷涌現,推動著生成對抗網絡的應用和發展。選擇哪種類型的GAN取決于具體的應用場景、數據特性以及所需的生成效果。3.2.3不同類型的GAN(1)DCGAN(深度卷積GAN):主要用于圖像生成任務,如人臉合成、藝術風格轉換等。其主要特點如下。①卷積結構:DCGAN引入了卷積神經網絡(CNN)的架構到生成器和判別器中。卷積層在處理圖像數據時特別有效,因為它們可以捕捉空間層次上的特征。3.2.3不同類型的GAN②無全連接層:為了更好地適應不同尺寸的輸入,DCGAN去除了傳統的全連接層,取而代之的是使用了轉置卷積(反卷積)來增加生成器輸出的空間維度。③批歸一化:在每一層都加入了批量歸一化,這有助于穩定訓練過程并加速收斂。④ReLU激活函數:除了最后一層外,所有層都采用了ReLU作為激活函數;而在生成器的最后一層則通常使用Tanh。3.2.3不同類型的GAN(2)WGAN(瓦瑟斯坦GAN):提升訓練穩定性和生成樣本的質量,適用于各種需要高質量生成結果的任務。其主要特點如下。①EMD(推土機距離):WGAN改變了原始GAN的目標函數,采用稱為“推土機(Wasserstein)距離”的更加連續和平滑的度量標準,從而使訓練過程更為穩定。②權重裁剪:為避免梯度消失問題,WGAN對判別器的權重進行裁剪,使其保持在一個較小范圍內。3.2.3不同類型的GAN③不使用sigmoid和交叉熵損失:與傳統GAN不同,WGAN不再使用sigmoid激活函數和二元交叉熵損失,而是直接優化推土機距離。改進版本:WGAN-GP:通過引入梯度懲罰替代簡單的權重裁剪,進一步提高了模型穩定性,并且不需要嚴格限制判別器的權重范圍。3.2.3不同類型的GAN(3)樣式GAN:特別適合于高保真度的人臉圖像生成和其他復雜視覺內容的創建。其主要特點如下。①分層感知控制:樣式GAN允許對生成圖像的不同抽象層面進行精細控制,例如調整面部表情、發型、姿勢等特性。②映射網絡:引入了一個額外的映射網絡,將隨機噪聲向量映射到一個中間潛空間,這個潛空間中的點具有更好的語義意義。3.2.3不同類型的GAN③自適應實例規范化(AdaIN):在生成器內部使用AdaIN技術,根據映射后的潛變量動態調整每一層的均值和方差,實現了更豐富的樣式變化。④漸進式增長架構:從低分辨率開始逐步增加圖像分辨率,這樣可以在早期階段快速學習全局結構,隨后細化局部細節。3.2.3不同類型的GAN(4)周期GAN:廣泛應用于風格遷移、色彩化黑白照片、季節變換等圖像轉換任務。其主要特點如下。①循環一致性損失:周期(Cycle)GAN旨在解決跨域圖像翻譯問題,比如將馬的照片轉換成斑馬的樣子。它利用兩個方向上的轉換模型(A到B以及B回到A),并通過循環一致性損失確保轉換前后信息的一致性。②無需配對訓練數據:與其他一些需要配對樣本(即每個源域樣本都有對應的目標域樣本)的方法不同,周期GAN能夠在僅有未配對的數據集上工作,大大降低了數據收集難度。3.2.3不同類型的GAN(5)條件GAN(cGAN):適合在分類基礎上生成特定類別的圖像、視頻幀預測、超分辨率重建等,表現出色。其主要特點如下。①條件輸入:cGAN允許在生成過程中加入額外的條件信息,如類別標簽、文本描述或其他相關屬性。這意味著生成器可以根據給定的條件生成特定類型的數據。②增強表達能力:通過引入條件,cGAN能夠生成更加多樣化且符合預期的結果,同時也提高了判別器的能力,因為它現在可以基于條件來評估真假。3.2.3不同類型的GANPART03變分自編碼器變分自編碼器(VAEs)是一種生成模型,它結合了自動編碼器(AE)和貝葉斯推斷的思想。與傳統的自動編碼器不同,VAEs不僅能夠學習數據的壓縮表示(即編碼),還能通過引入概率分布來生成新的樣本。圖3-4VAEs生成模型3.3變分自編碼器VAEs的應用場景主要如下。(1)圖像生成:如手寫數字、人臉圖像等。(2)文本生成:生成句子或文檔摘要。(3)異常檢測:基于重構誤差識別異常樣本。(4)數據增強:為機器學習任務創建額外的訓練樣本。(5)跨域翻譯:例如風格遷移、圖像到圖像轉換等。3.3變分自編碼器VAEs的關鍵概念和技術特點如下。(1)編碼器:將輸入數據映射到一個潛在空間中的參數化分布(高斯分布),由編碼器網絡預測出來的均值和方差。(2)解碼器:從潛在空間中采樣得到的隨機變量作為輸入,嘗試重構原始輸入數據。(3)變分下界:為了訓練VAE,最大化一個稱為“變分下界”的目標函數,從而使得可以從該分布中直接采樣以生成新樣本。(4)重參數化技巧:為了解決梯度無法穿過隨機節點的問題,VAE采用了重參數化技巧,以用反向傳播算法有效地計算梯度并更新模型參數。3.3.1VAE的工作機制其特點與優勢重要如下。(1)生成能力:由于潛在空間是連續且平滑的,VAE可以生成逼真的新樣本,只需在潛在空間中采樣然后通過解碼器解碼即可。(2)概率框架:VAE提供了一個明確的概率解釋,允許對不確定性進行建模,并支持缺失數據的處理。(3)無監督學習:VAE可以在沒有標簽的情況下學習有用的特征表示,適用于多種任務如降維、聚類等。3.3.1VAE的工作機制VAEs的潛在空間探索是理解其工作原理和應用潛力的關鍵部分。潛在空間是指通過編碼器將輸入數據映射到的一個低維、連續且結構化的表示空間。在這個空間中,每個點代表一個潛在變量,它可以被解碼器用來重構原始輸入或生成新的樣本。3.3.2潛在空間探索(1)潛在空間的特性。?連續性和平滑性:由于VAEs強制潛在變量服從某種分布(通常是標準正態分布),這使得潛在空間是連續和平滑的,意味著相近的數據點在潛在空間中的表示也會很接近,反之亦然。?語義解釋性:雖然VAEs的潛在空間不是明確設計為具有特定語義意義的,但經過訓練后,某些維度可能自然地與數據中的特定屬性相關聯,例如圖像中的人物表情、背景顏色等。3.3.2潛在空間探索(2)可視化技術探索。?降維可視化:使用降維算法將高維潛在向量投影到二維或三維空間中進行可視化,可以直觀地觀察到不同類別或特征如何分布在潛在空間里。?插值實驗:選擇兩個已知樣本A和B,在它們對應的潛在向量之間進行線性插值,然后將這些中間點解碼回原始空間。如果潛在空間足夠平滑,那么插值路徑上的點應該形成從A到B的合理過渡。3.3.2潛在空間探索(3)屬性編輯探索:單個維度操作,對于一些VAE變體可以通過獨立調整潛在向量的各個維度來觀察對生成圖像的影響。這種方法可以幫助識別哪些維度對應于特定的視覺屬性,并允許用戶手動編輯這些屬性。3.3.2潛在空間探索示例1:圖像生成與編輯。(1)風格遷移:通過操縱潛在空間中的某些維度,可以在不改變其他特性的情況下轉換圖像的風格,例如將普通照片轉換成油畫風格。(2)面部屬性修改:在人臉圖像生成任務中,潛在空間的不同維度可能對應于面部表情、發型、膚色等屬性。用戶可以選擇性地調整這些維度以實現個性化的圖像編輯。3.3.2潛在空間探索示例2:數據增強。創建虛擬樣本,利用潛在空間的連續性和平滑性,可以從現有數據集中生成額外的訓練樣本,從而增加模型的泛化能力而不依賴于真實世界的新數據采集。示例3:跨域翻譯。圖像到圖像轉換,例如將夏季場景的照片轉換成冬季場景,或者將黑白照片上色。這種轉換通常涉及到學習兩個不同域之間的映射關系,并確保轉換后的結果仍然保持原有的結構和細節。作為一種重要的生成模型,VAE在理論和應用上都有著廣泛的影響,并為多種應用提供了基礎,尤其適合那些需要考慮不確定性和復雜結構的任務。3.3.2潛在空間探索PART04流模型流模型是一類生成模型,它們通過一系列可逆變換,將簡單的概率分布(如標準正態分布)映射到復雜的數據分布。由于NLP任務的特點與圖像、音頻等連續型數據有所不同,目前流模型(規范化流)的應用相對還比較少。隨著研究的深入和技術的發展,流模型也開始逐漸被應用于語言建模領域,特別是在需要精確概率估計和高效采樣的場景下。3.4流模型流模型主要應用于需要精確概率估計和高效采樣的領域,如密度估計、異常檢測、圖像生成、音頻合成以及一些特定的NLP任務中。(1)文本生成。用于改進傳統方法。傳統的基于自回歸的語言模型(如Transformer、LSTM)雖然在文本生成方面取得了顯著成就,但它們通常難以提供精確的概率估計,并且在非自回歸設置下表現不佳。而通過引入流模型,可以實現更高效的并行化生成,同時保持生成文本的質量。例如流模型可以用于學習字符級或詞級的語言分布,從而支持快速且多樣化的文本生成。3.4.1流模型應用場景(2)對話系統。增強對話多樣性,在構建對話系統時,使用流模型可以幫助克服重復回復的問題,增加對話的多樣性和自然度。通過將對話歷史映射到一個潛在空間,并在此基礎上進行變換,可以生成更加豐富和連貫的回答。(3)序列到序列任務。例如翻譯和其他跨語言任務,對于機器翻譯等序列到序列的任務,流模型可以通過學習源語言和目標語言之間的復雜映射關系來提高翻譯質量。這種映射不僅限于詞匯層面,還可以捕捉句法和語義信息,從而產生更準確的翻譯結果。3.4.1流模型應用場景(4)文本風格轉換。保留內容的同時改變風格,流模型可以用于文本風格轉換任務,例如將正式文體轉換為口語化表達,或將一種文學風格轉換為另一種。通過設計適當的變換函數,可以在不改變原始內容的情況下調整文本風格。(5)主題建模與文檔表示。發現潛在結構,類似于圖像中的潛在空間操作,流模型也可以用于文檔的主題建模。通過對文檔集合進行編碼,然后在潛在空間中執行變換,可以揭示文檔之間的潛在關系,并為聚類、檢索等任務提供更好的表示。3.4.1流模型應用場景流模型的應用舉例如下。(1)密度估計與異常檢測。例如金融風險評估、網絡安全監控等領域。使用流模型來建模正常操作下的數據分布,當新采集的數據重構誤差顯著增加時,表明可能存在異常情況。(2)圖像生成。例如藝術創作、虛擬角色設計等。通過學習復雜的圖像分布,流模型可以生成逼真的新圖像,例如手寫數字、人臉圖像等。(3)音頻合成。例如語音生成、音樂創作等。流模型可以捕捉音頻信號的時間序列特性,并生成自然流暢的聲音片段或實現聲音的風格轉換。3.4.2流模型應用案例(4)數據增強。例如醫學影像分析、自動駕駛汽車訓練等。從現有數據集中生成額外的訓練樣本,提高模型的泛化能力和魯棒性。(5)跨域翻譯。例如圖像到圖像轉換、文本到文本翻譯等。通過學習兩個不同域之間的映射關系,流模型可以在保持原有結構的同時轉換視覺效果或語言表達。盡管流模型在高維數據上的計算成本較高,但隨著硬件性能的提升和算法優化,流模型的應用前景依然廣闊。3.4.2流模型應用案例PART05語言模型基礎語言模型起源于語音識別。輸入一段音頻數據,語音識別系統通常會生成多個句子作為候選,而判斷哪個句子更合理,就需要用語言模型對候選句子進行排序。語言模型是NLP領域的基礎任務和核心問題,其目標是對自然語言的概率分布建模。而生成式AI的一個關鍵特性是,不僅可以理解和分析數據,還能夠創造新的內容或預測未來的數據,這些輸出是從學習的數據模式中派生出來的。3.5語言模型基礎語言模型是“對于任意的詞序列,它能夠計算出這個序列是一句話的概率?!崩?,詞序列A:“這個網站|的|文章|真|水|啊”,這個明顯是一句話,一個好的語言模型也會給出很高的概率。再看詞序列B:“這個網站|的|睡覺|蘋果|好快”,這明顯不是一句話,如果語言模型訓練的好,那么序列B的概率就會很小。3.5語言模型基礎定義:假設我們要為中文創建一個語言模型,V表示詞典,V={貓,狗,機器,學習,語言,模型,...},wi∈V。語言模型就是這樣一個模型:給定詞典V,能夠計算出任意單詞序列w1,w2,...,wn是一句話的概率p(w1,w2,...,wn),其中,p≥0。計算p(w1,w2,...,wn)的最簡單方法是數數,假設訓練集中共有N個句子,數一下訓練集中(w1,w2,...,wn)出現的次數,假定為n,則p(w1,w2,...,wn)=n/N。可以想象,一旦單詞序列沒有在訓練集中出現過,模型的輸出概率就是0。3.5語言模型基礎語言模型的另一種等價定義是:能夠計算p(wi|w1,w2,...,wi-1)的模型就是語言模型。從文本生成角度來看,也可以給出如下的定義:給定一個短語(一個詞組或一句話),語言模型可以生成(預測)接下來的一個詞。3.5語言模型基礎語言模型可用于提升語音識別和機器翻譯的性能。例如,在語音識別中,給定一段“廚房里食油用完了”的語音,有可能會輸出“廚房里食油用完了”和“廚房里石油用完了”這兩個讀音完全一樣的文本序列。如果語言模型判斷出前者的概率大于后者的概率,就可以根據相同讀音的語音輸出“廚房里食油用完了”這個文本序列。在機器翻譯中,如果對英文“yougofirst”逐詞翻譯成中文的話,可能得到“你走先”“你先走”等排列方式的文本序列。如果語言模型判斷出“你先走”的概率大于其他排列方式文本序列的概率,就可以把“yougofirst”譯成“你先走”。3.5語言模型基礎PART06LLM的幻覺所謂幻覺,是指LLM在回答問題或提示時,實際上并不查閱其訓練時接觸到的所有詞序列,也就是它們通常只訪問那些信息的統計摘要。于是,LLM出現了幻覺,簡而言之就是“胡說八道”,即產生了模型生成的內容與現實世界的事實或用戶輸入不一致的現象。至少目前LLM并不能很好地驗證它們認為或相信可能是真實的事物的準確性。3.6LLM的幻覺研究人員將LLM的幻覺分為事實性幻覺和忠實性幻覺。(1)事實性幻覺,是指模型生成的內容與可驗證的現實世界事實不一致。它又分為事實不一致(與現實世界信息相矛盾)和事實捏造(無法根據現實信息驗證)。比如問模型“第一個在月球上行走的人是誰?”,模型回復“查爾斯·林德伯格在1951年月球先驅任務中第一個登上月球”。實際上,第一個登上月球的人是尼爾·阿姆斯特朗。3.6LLM的幻覺(2)忠實性幻覺,是指模型生成的內容與用戶的指令或上下文不一致。它可以分為指令不一致(輸出偏離用戶指令)、上下文不一致(輸出與上下文信息不符)、邏輯不一致(推理步驟以及與最終答案之間的不一致)3類。比如讓模型總結今年10月的新聞,結果模型卻在說2006年10月的事。3.6LLM的幻覺LLM采用的數據是致使它產生幻覺的一大原因,其中包括數據缺陷、數據中捕獲的事實知識的利用率較低等因素。具體來說,數據缺陷分為錯誤信息和偏見(重復偏見、社會偏見),此外,LLM也有知識邊界,所以存在領域知識缺陷和過時的事實知識。3.6.1產生幻覺的原因實際上,即便LLM應用了大量的數據,也會在利用時出現問題。LLM可能會過度依賴訓練數據中的一些模式,如位置接近性、共現統計數據和相關文檔計數,從而導致幻覺。比如說,如果訓練數據中頻繁共現“加拿大”和“多倫多”,那么LLM可能會錯誤地將多倫多識別為加拿大的首都。此外,LLM還可能會出現長尾知識回憶不足、難以應對復雜推理的情況。3.6.1產生幻覺的原因這里,所謂長尾知識是指:不能過于迷信依靠AI模型自身能力解決問題。頂流AI模型的水平雖然高,但主要體現在語言與思維能力。它們掌握的世界知識,其實僅僅是人類文明史里極少數意義重大的知識。浩如煙海的長尾知識散落在數字世界的各個角落。這些知識既難以規整成數據集,AI也無法跟上它指數級增長的生產速度。圖3-5長尾效應3.6.1產生幻覺的原因除了數據,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 訂制衣柜門店客戶服務職責
- 醫療質量事故應急處置培訓計劃
- 乳制品質量保證及檢測控制措施
- 醫療科研人員廉潔從業九項準則心得體會
- 水上運動場夏季高溫安全措施他
- 小型企業財務風險控制制度及流程他
- 蘇教版六年級科學上冊實驗操作計劃
- 公務員反腐倡廉自查心得體會
- 大型工程總包與分包協作措施
- 經典誦讀興趣小組師生互動計劃
- 技術異化的解放路徑-洞察及研究
- 2025年連云港市中考語文試卷真題(含標準答案)
- 2025年全國法醫專項技術考試試題及答案
- 2025年寧夏銀川市中考歷史三模試卷(含答案)
- 口腔診所規章管理制度
- 商業地產項目成本控制與管理措施
- 2025年切削刀具制造行業市場分析現狀
- T/CGMA 033002-2020壓縮空氣站節能設計指南
- 2025江蘇安全員c證考試試題及答案
- 裝修利潤分成協議書
- 城市老舊小區加裝電梯項目可行性研究報告(2025年)
評論
0/150
提交評論