




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
動(dòng)手操作大型語(yǔ)言模型動(dòng)手操作大型語(yǔ)言模型購(gòu)買O'Reilly書籍可以用于教育、商業(yè)或促銷用途售部門:800-998-9938或corpora.編輯:NicoleButterfield.開(kāi)發(fā)編輯:MicheleCronin.制作編輯:ClareLaylock.封面設(shè)計(jì):KarenMontgomery.插畫師:KateDullea.2024年12月:第一版早期版本的修訂歷史請(qǐng)?jiān)L問(wèn)/catalog/errata.csp?isbn=9781098給早期發(fā)行版讀者的說(shuō)明在本章中,我們將討論使用大型語(yǔ)言建模對(duì)文本進(jìn)行分類的各種方法。監(jiān)督文本分類對(duì)于使用文本數(shù)據(jù)作為輸入的監(jiān)督分類,通模型選擇選擇可能不像您想象的那么簡(jiǎn)單。模型在它架構(gòu),大小,推理速度,架構(gòu),某些任務(wù)的BERT是一個(gè)很好的底層架構(gòu),用于表示任務(wù),可以·BERT-基-無(wú)基·蒸餾堿在本節(jié)中,我們將在一些示例中使用“bert-base-c地,套管”與任何上述模型。嘗試不同的模型的數(shù)據(jù)集是“rotten_tomatoes”;pa雖然本書關(guān)注LLM,但強(qiáng)烈建議將這些示例與經(jīng)典但強(qiáng)示文本并在此基礎(chǔ)上訓(xùn)練LogisticReg分類主管使用RottenTomatoes數(shù)據(jù)集,我首先,如圖1-4所示,我們采用現(xiàn)有的T通常,選擇前饋神經(jīng)網(wǎng)絡(luò)作為分類器。這兩個(gè)步驟都描述了相同的模型,因?yàn)榉诸愵^直接添加到BERT模型中。如圖1-6所示,我們的分類器只不過(guò)是一個(gè)預(yù)先訓(xùn)練好的LLM,上在第10章中,我們將使用圖2-4和圖2-5中所示的相同管道,但將對(duì)大型語(yǔ)里,我們將更深入地了解微調(diào)是如何工作的,以及為什么它會(huì)改進(jìn)model_args.train_custmodel_args.custom_para{“l(fā)r”:1e-3,{“l(fā)r”:1e-3,]接下來(lái),我們可以在訓(xùn)練數(shù)據(jù)集上訓(xùn)練模型result,model_outputs,wy_pred=np.argmax(model_outputs))的例如,您還可以使用它來(lái)創(chuàng)建一個(gè)自定義的命名實(shí)體識(shí)別模預(yù)訓(xùn)練嵌入BERT等基于transformer的一般模型中獲得的更好的代圖1-9.分類器是一個(gè)單獨(dú)的模型,它利用SBERT的嵌入來(lái)學(xué)習(xí)。從sentence_transformers導(dǎo)入Sentenceeval_embeddings=model.en選擇模型可以很簡(jiǎn)單。我們可以回到基礎(chǔ)知識(shí)并使用邏輯回歸,而不0精度在不需要微調(diào)LLM的情況下,我們成功實(shí)現(xiàn)了0.零樣本分類任務(wù)不同的任務(wù)。圖2-11給出了零炮分類圖1-10.圖2-11.在zero-sh言來(lái)描述我們希望模型做什么。它通常被稱預(yù)訓(xùn)練嵌入影評(píng)論”。這種描述可以通過(guò)轉(zhuǎn)換器嵌入。最后,兩個(gè)標(biāo)簽以似性(在本書中經(jīng)常使用)是一種相似性度嵌入的點(diǎn)積除以其長(zhǎng)度的乘積這聽(tīng)起來(lái)肯定比實(shí)際情況更復(fù)雜,希望似度最高的標(biāo)簽圖1-13給出了一個(gè)很好的例v2')eval_embeddings=mo#為每個(gè)文檔查找最佳匹配標(biāo)簽sim_matrix=cosine_similarity(eval_emb01考慮到我們根本沒(méi)有使用任何標(biāo)記數(shù)據(jù),0.01在這個(gè)例子中,我們通過(guò)命名標(biāo)簽并嵌入它們來(lái)應(yīng)用零次分類當(dāng)我們有一些入它們并將它們添加到管道中可以幫助提高性能。例如,我們可以將標(biāo)記示例入一起平均。我們甚至可以通過(guò)創(chuàng)建不同類型的表示(標(biāo)簽嵌入,文檔嵌入,NLI可以通過(guò)在如何使用前提/假設(shè)對(duì)方面有點(diǎn)創(chuàng)造性來(lái)用于零射擊分論,并將其作為我們的前提(yin201例如,假設(shè)可以是:“這個(gè)例子是正面的電個(gè)蘊(yùn)涵時(shí),我們可以在它是一個(gè)矛盾時(shí)將評(píng)論標(biāo)記為正面和負(fù)面。使用他們的中心上有大量的預(yù)訓(xùn)練模型。對(duì)于零射擊分類任務(wù),https://huggingface.co/models?pipeline_tag=zero-shot-classification。“candidate_labels=[“負(fù)面影評(píng)”,“正面(),01在沒(méi)有任何微調(diào)的情況下,它獲得了0.81標(biāo)簽的短語(yǔ)來(lái)增加這個(gè)值。例如,看看如果候選標(biāo)簽只是“negative”和“positive”會(huì)發(fā)生什么另一個(gè)很好的預(yù)訓(xùn)練零射擊分類模型是mcc-transformers的cross-encoder,即cross-encoder/nli-deberta-base。由于訓(xùn)練一個(gè)轉(zhuǎn)換器模型的重點(diǎn)使用生成模型進(jìn)行分類模型,與我們迄今為止所做的工作有點(diǎn)不同我們使用模型并試圖引導(dǎo)它朝著我們正在尋找的答案類型發(fā)展,而不是根據(jù)我們的數(shù)據(jù)微調(diào)模型情境學(xué)習(xí)模型甚至可以做一些全新的事情,只需展示也被稱為上下文學(xué)習(xí),指的是讓模型學(xué)習(xí)或),跟隨示例。在成功生成haikus之后,由于),defgpt_prediction(prompt,document,model=]seehere允許我們處理速率限制錯(cuò)誤這種錯(cuò)誤OpenAI和其他外部API通常避免速率限制錯(cuò)誤的一個(gè)簡(jiǎn)單方法是使用隨最后,我們需要使用您可以從帳戶中獲得的A使用外部API時(shí),請(qǐng)始終跟蹤您的使用情況。外部API,如O型往往有自己的想法,并返回關(guān)于為什么某document=“謙遜,迷人,古怪,輸出結(jié)果確實(shí)顯示,OpenAI的模型將示模板,我們可以在“[DOCUMENT>))010.91分這是我們迄今為止看到的最高值,考慮雖然這種使用GPT的零觸發(fā)分類表現(xiàn)出了很高的性紹的上下文學(xué)習(xí)。如果涉及特定于領(lǐng)域的數(shù)據(jù),這一點(diǎn)尤其如此,當(dāng)模型的任務(wù)進(jìn)行更新時(shí),模型對(duì)特定于任務(wù)的細(xì)微差別的適應(yīng)性可能會(huì)受到限制。fewshot_prompt=“預(yù)測(cè)如果是正數(shù),就說(shuō)1;如果是負(fù)數(shù),就說(shuō)0。D“”document=“謙遜,迷人,古怪,01我們可以通過(guò)工程提示將上下文學(xué)習(xí)的例子擴(kuò)展到多標(biāo)簽分類。例如,命名實(shí)體識(shí)別圖1-17.一個(gè)命名實(shí)體識(shí)別的例子,它檢測(cè)實(shí)體“地點(diǎn)”和“度的NLP應(yīng)用程序,并且一直是NER任務(wù)的要使用SpaCy的OpenAI模型,我們接下來(lái),我們需要配置SpaCy管道。需要定命名實(shí)體識(shí)別“后端”是用于執(zhí)行“任務(wù)”的底層GPT-3.5-turbo模型。在任務(wù)中,我們可以#創(chuàng)建命名實(shí)體識(shí)別任務(wù)并定義latask={““標(biāo)簽”:“日期、年齡、位置、疾病、癥狀“api”:“OpenAI”,“配置”:{“型號(hào)”:“gpt-3.5-turbo”}#合并配置并創(chuàng)建SpaCy管道config=使用SpaCy從頭開(kāi)始訓(xùn)練NER模型是不可能的,只需要幾行代碼,但它也絕不是困難的!在我在下一章中,我們將繼續(xù)分類,但重點(diǎn)是無(wú)任何標(biāo)簽的文本數(shù)據(jù),我們能做什么?我們給早期發(fā)行版讀者的說(shuō)明始,我們使用大型Transformer模型,在本章中,我們將討論使用語(yǔ)言模型來(lái)增強(qiáng)我們將討論代碼示例,您可以使用這些功能來(lái)請(qǐng)注意,這不僅對(duì)網(wǎng)絡(luò)搜索有用,而且搜索是1密集檢索2-重排序3-生成搜索包括一個(gè)生成模型,該模型只是生成一個(gè)響如圖2-3。生成式搜索對(duì)一個(gè)問(wèn)題給出一個(gè)答案,并引用其信息源。密集檢索根據(jù)圖2-5中的距離判斷,“text2”是該查密集檢索示例通過(guò)在https://cohere.ai/注冊(cè)獲取您的Cohere從sklearn.metrics.pairwise導(dǎo)入cosine_#在這里粘貼API密鑰記住不要共享APIAPI_key=“”#從os.cohere創(chuàng)建并獲取CohereAPI密鑰co=coher/wiki/Interstellar_(film).我們會(huì)拿到《星際穿越》是一部《星際穿越》是一部2014年的史詩(shī)科幻電影,由馬修·麥康納、安妮·海瑟薇、杰西卡主演,故事發(fā)生在一個(gè)反烏托邦的未來(lái),人類克里斯托弗和喬納森·諾蘭兄弟撰寫了加州理工學(xué)院理論物理學(xué)家和2017年諾貝爾獎(jiǎng)獲得者電影攝影師HoytevanHoytema在35#清理以刪除空格和新行textures=np.array([##創(chuàng)建搜索索引,傳入embeddinsearch_index=Ann#將所有向量添加到搜索索引中進(jìn)行index我們現(xiàn)在可以使用任何我們想要的查詢來(lái)搜索數(shù)據(jù)集我們只需嵌入查詢,并將其嵌入呈現(xiàn)給索引,索引將檢索最相似的文):在Nearestneighbors:?)返回結(jié)果),挑戰(zhàn)性的。因此,例如,如果你在互聯(lián)網(wǎng)和型,然后將其部署在法律文本上(沒(méi)有足夠),對(duì)長(zhǎng)文本進(jìn)行分塊.只嵌入文檔的代表性部分,而忽略文本的其余部分。這可能意味著只在這種方法中,我們將文檔分成更小的塊,圖2-7.對(duì)文檔進(jìn)行分塊以進(jìn)行嵌入的許多可能選項(xiàng)。.每個(gè)句子都是一個(gè)塊。這里的問(wèn)題是,這可能太細(xì)了,向量不能捕.有些語(yǔ)塊的很多意義都來(lái)自于它們周圍的文本。所以.將文檔的標(biāo)題添加到塊中.在它們之前和之后添加一些文本到塊中。這樣,塊可以重疊,因如圖2-8所示將文本分成重疊的片段是一種保留不最近鄰搜索與矢量數(shù)據(jù)庫(kù)用于密集檢索的微調(diào)嵌入模型看一個(gè)來(lái)自我們數(shù)據(jù)集的例子,句子“Interstellarpremiere.相關(guān)查詢一:“星際上映日期”.不相關(guān)查詢:“星際演員陣容”重排序種更簡(jiǎn)單的方法是將其作為搜索管道中的最于與搜索查詢的相關(guān)性來(lái)改變搜索結(jié)果的順重新排序示例APIKEY=“”MODEL_NAME=“rerank-english-02”queryquery=“filmgross”Cohere的Rerank端點(diǎn)是開(kāi)始使用第一個(gè)rerank的簡(jiǎn)單方法。我們只需將文檔排名:3,文檔索引:2這表明重新排序者對(duì)第一個(gè)結(jié)果更有信心,選,比如說(shuō)一百或一千個(gè)結(jié)果,然后將這些個(gè)入圍名單被稱為搜索管道的第一階段。使用句子轉(zhuǎn)換器進(jìn)行開(kāi)源檢索和重新排序句子轉(zhuǎn)換器庫(kù)。https://www.sber重新排序模型的工作原理法在一篇名為Multi-StageDocumentRankingw要了解更多關(guān)于使用LLM進(jìn)行搜索的發(fā)展,PretrainedTransformersforTextRanking:BERTandBeyond是一個(gè)高度推薦的研究這些模型的發(fā)展直生成搜索息檢索形式。人們開(kāi)始向ChatGPT這樣一個(gè)名為檢索增強(qiáng)生成的機(jī)器學(xué)習(xí)研究領(lǐng)域。該領(lǐng)域其他LLM應(yīng)用搜索·生成合成數(shù)據(jù)以改進(jìn)嵌入模型。這包括像GenQ和InPars-v2這樣的方.文本生成模型評(píng)估指標(biāo)但是如果像圖3-16這樣的情況,兩個(gè)系統(tǒng)都只得到三個(gè)結(jié)果中的一在這種情況下,我們可以憑直覺(jué)認(rèn)為系統(tǒng)1比在這種情況下,分配數(shù)值分?jǐn)?shù)的一種常見(jiàn)方評(píng)估一組結(jié)果,然后如何聚合這些結(jié)果以跨件中所有查詢上的平均精度,并獲得其均值.密集檢索,依賴于文本嵌入的相似性。這些系統(tǒng)嵌入了搜索查詢,并我們還研究了評(píng)估搜索系統(tǒng)的一種可能方法MeanAv們優(yōu)化算法是我們什么時(shí)候才能知道我們的算法是正確的?算法“正確”“transformers”和“self-attention”等術(shù)語(yǔ)來(lái)描述傳統(tǒng)上,我們期望關(guān)于特在本章中,我們將提供如何使用大型語(yǔ)言模文本聚類NLP中探索性數(shù)據(jù)分析的一個(gè)主要組成部分是文本聚類。這種無(wú)監(jiān)督的技術(shù)旨在將類似的文本或文檔分組在一起,合中輕松發(fā)現(xiàn)模式的方法。在深入分類任務(wù)現(xiàn)的支持問(wèn)題和發(fā)現(xiàn)新內(nèi)容以推動(dòng)SEO實(shí)在我們描述如何執(zhí)行文本聚類之前,我們將我們首先使用HuggingFace的數(shù)據(jù)fromsentence_transfo在對(duì)從ArXiv抽象生成的嵌入進(jìn)行聚類之難。這種詛咒是在處理高維數(shù)據(jù)時(shí)發(fā)生的一加,每個(gè)維度中可能值的數(shù)量呈指數(shù)增長(zhǎng)。間變得越來(lái)越復(fù)雜。此外,隨著維數(shù)的增加所周知的方法是主成分分析(PCA)和均勻流形近似和投影(mcinnes2018umap)。對(duì)于這個(gè)管然而,降低視錯(cuò)覺(jué)的技術(shù)并非完美無(wú)缺。它們無(wú)法在低維表示中完美地#我們擬合并轉(zhuǎn)換嵌入以減少它們r(jià)educed_embed類。許多算法都能很好地處理聚類任務(wù),從基于質(zhì)心的方法(如k-一個(gè)很好的默認(rèn)模型是HierarchicalDensity-BasedSpatialClusterApplicationswithNoise(HDBSHDBSCAN是一種稱為DBSCAN的聚類算法的分層變?nèi)缓螅褂梦覀冎吧傻?D嵌入,我們 pd.DataFrame(np.hstack([redu如圖3-6。生成的聚類(彩色)和離群值(灰色)表示為2D可視化。使用任何降維技術(shù)用于可視化目的都會(huì)造成信息損失。它僅僅是我們?cè)妓切畔⑿缘模赡軙?huì)將集群推到一起,并使它們比實(shí)際上更遠(yuǎn)。因諷刺被認(rèn)為是最難分析的問(wèn)題之一在我們的觀察中,印尼社會(huì)醫(yī)學(xué)界的人傾向于用諷刺的方式來(lái)批評(píng)某件事這里的附加功能來(lái)檢測(cè)諷刺后,一個(gè)共同的SCON.自動(dòng)諷刺檢測(cè)是情感分析中的一個(gè)關(guān)鍵步驟,要考慮到情感文本對(duì)每個(gè)創(chuàng)建的集群都這樣做,但這可能需要主題建模傳統(tǒng)上,主題建模是一種旨在發(fā)現(xiàn)文本數(shù)據(jù)集潛在狄利克雷分配(LDA;blei2003latent模型的文檔可能很有可能包含“BERT”,“self-attention”和“transformers”“rlhf”等單詞。“reward”,這個(gè)問(wèn)題的一個(gè)解決方案是BERTopic,模塊化,許多新發(fā)布的模型可以集成在其架域的發(fā)展,BERTopic也在發(fā)展。這允許BERTopicBERTopic是一種主題建模技術(shù),它假設(shè)語(yǔ)義相似的文檔集圖3-8描述了與前面相同的步驟,即使用嵌入轉(zhuǎn)換器嵌入文檔,如圖3-8所示BERTopic管道的第一部分是聚類文本數(shù)據(jù)。果我們有數(shù)百萬(wàn)個(gè)文檔存儲(chǔ)和跟蹤變得非常困一種名為c-TF-IDF的技術(shù),它代表基于類的術(shù)語(yǔ)頻率逆文TF-IDF是經(jīng)典TF-IDF過(guò)程的基于類的改編。c-TF-I要使用c-TF-IDF,我們首先將集群中的將這兩個(gè)步驟放在一起,聚類和表示主題,就會(huì)產(chǎn)生B有趣的是,c-TF-IDF技巧不使用大型語(yǔ)言模型,因此不考慮單詞的上下就像神經(jīng)搜索一樣,它允許一個(gè)有效的起點(diǎn),之后我們可以使用計(jì)算量更大當(dāng)我們使用c-TF-IDF生成主題時(shí),我通過(guò)聚類,每個(gè)文檔只被分配到一個(gè)聚類或主題。在實(shí)踐中,文檔可能包題文檔分配給單個(gè)主題并不總是最準(zhǔn)確的方法。我們將在后面討論這個(gè)問(wèn)題,因?yàn)閹追N方法來(lái)處理這個(gè)問(wèn)題,但是重要的是要理解,在其核心,使用BERTopi完全替換為另一個(gè)類似的算法。這種“樂(lè)高積木”的示。圖中還顯示了我們可以使用的另一個(gè)算法TF-IDF來(lái)創(chuàng)建初始主題表示,但我們可以使如圖3-11所示。BERTopic的模塊化是一個(gè)關(guān)鍵組件,它允許您根然而,BERTopic的模塊化是眾所周fromsentence_transformersimportSentenceTransformerfromsklearn.feature_extraction.textimportCountVectofrombertopic.representationimportKeyBERT靈感bertopic.vectorizersimportBERTopic管道的一部分。接下來(lái),讓我們更明確地構(gòu)建BER##第1步-提取嵌入(藍(lán)色塊)embeddiSentenceTransformer(“hdbscan_model=HDB#結(jié)合步驟,構(gòu)建我們自己的主題模型) topic_model=BERTopic(umap_model=utopics,probs=topicmodel.fitt 010213243t字表示,這些關(guān)鍵字在Name列中與“_”連接算法HDBSCAN,它不強(qiáng)制所有點(diǎn)都被聚類。為了“abstractive”。根據(jù)這些關(guān)鍵詞,似乎主題是總結(jié)任務(wù)。要獲取每個(gè)主題的前10個(gè)關(guān)鍵字以及它們的c-TF-IDF權(quán)重,我們可以使用get_topic ()函數(shù):),),),),),什么的。例如,看到單詞“rogue”出現(xiàn)是),),),),句子中可以有多個(gè)主題盡管BERTopic#計(jì)算token級(jí)topic_distr上的主題分布,topic_tokentopic_model.visualize_approximate_distri圖3-12.BERTopic中提供了廣泛的可視化選項(xiàng)。如圖3-12所示,輸出表明文檔在一定程度上包含多個(gè)主題。這種分化功能允許我們對(duì)生成的主題進(jìn)行廣泛的概述其中如圖3-13所示。BERTopic中提供了廣泛的可視化選項(xiàng)。圖3-14.在2D空間中表示的主題的主題間距離圖。我們只可視化了一部分主題,因?yàn)轱@示所有300個(gè)主題會(huì)導(dǎo)致相當(dāng)混亂的可視化。此外沒(méi)有傳遞“abstracts”,而是傳遞了“titles”,因?yàn)楫?dāng)鼠標(biāo)懸停在文檔上時(shí),我們只想查看每篇論最后,我們可以使用visualize_barchart創(chuàng)建如圖3-16所示。前8個(gè)主題的前5個(gè)關(guān)鍵詞。表示模型如圖3-17所示。在應(yīng)用c-TFIDF權(quán)重之后,可以使用各在本節(jié)中,這些單詞的初始排名可以被視為“對(duì)于前10個(gè)主題,顯示兩種模型之間主題表示的差異og_words=“|“.join(lisc-TF-IDF生成的主題不考慮主題中單詞的bertopic.representation_model.()KeyBERT啟發(fā)的方法。在其最基本的形式中,KeyBER將文檔中的單詞嵌入與文檔嵌入進(jìn)行比較,以在BERTopic中,我們希望在主題級(jí)別而不是西如圖3-18所示,KeyBERTInspired使用c-TF代表性文檔,方法是每個(gè)主題隨機(jī)抽取500個(gè)文檔,計(jì)算它們的c-TF-IDF值,并找到最具代表性的文檔。這些文檔被frombertopic.representationimportKeyBERTInspired#更新我們的主題表示new_topic_model.update_主題:2總結(jié)|摘要|總結(jié)|抽象|extractive-->觀點(diǎn)-->情感|方面|方面|方面級(jí)|c-TF-IDF不區(qū)分它認(rèn)為重要的詞的類型無(wú)論管道,模型和部署選項(xiàng)。更具體地說(shuō),我們frombertopic.representa#顯示主題差異topic_differs(topic主題:8方面|情緒|Absa|基于方面的|主題:9個(gè)解釋|解釋|理由|理由|可解使用c-TF-IDF,結(jié)果關(guān)鍵字中可能有很多“cars”這樣的詞本質(zhì)上是一樣的。換句話說(shuō),我們希望所產(chǎn)生的主題具有足夠的多樣性,盡可能少的重復(fù)。(圖3-20)), vectors-->嵌入|相似性|向量|word2vec主題:8方面|情緒|Absa|基于方面的|文本生成BERTopic中不使用我們?cè)诘谌轮性敿?xì)可以決定主題是關(guān)于什么的。在BERTopicc-TF-IDF表示來(lái)選擇的。然后提取“[KEYWORDS]“標(biāo)記進(jìn)行引用。這些關(guān)鍵字也可以幸運(yùn)的是,與大多數(shù)大型語(yǔ)言模型一樣,我T5系列生成模型之一。這些模型的有趣之處在BERTopic允許使用這樣的模型來(lái)生成主題標(biāo)簽。我們frombertopic.representationimpfrombertopic.representationimpmodel='gorepresentation_model=主題:0主題:0演講|ASR|識(shí)別|聲學(xué)|enfrombertopic.representationimfrombertopic.representationimd主題:主題:0演講|ASR|識(shí)別|聲學(xué)|en主題:主題:3parsing|解析器|依賴|AMR|解析器-主題:主題:4hate|進(jìn)攻|講話|檢測(cè)|有毒的-話題:話題:6性別|偏置|偏見(jiàn)|去偏|公平-標(biāo)題:標(biāo)題:7ner|命名|實(shí)體|識(shí)別|嵌套-->`delay_in_seconds`參數(shù)用于在frombertopic.representationim主題:主題:0演講|ASR|識(shí)別|聲學(xué)|en主題:主題:3parsing|解析器|依賴|AMR|解析器-主題:主題:4hate|進(jìn)攻|講話|檢測(cè)|有毒的-話題:話題:6性別|偏置|偏見(jiàn)|去偏|公平-標(biāo)題:標(biāo)題:7ner|命名|實(shí)體|識(shí)別|嵌套-->得注意的是,LangChain將語(yǔ)言模型連數(shù)據(jù)庫(kù)上應(yīng)用ChatGPT由于我們希望最大限度地減少Lan信息量,因此將最具代表性的文檔傳遞給包。然后,我LangChain支持的語(yǔ)言模型來(lái)提取主題。下面的示例演示fromfromlangchain.chains.question_answeringimportload_qchain=load_qa_chai#顯示主題差異topic_differences(topic_主題:主題:0演講|ASR|識(shí)別|聲學(xué)|en主題:主題:3parsing|解析器|依賴|AMR|解析器-主題:主題:4hate|進(jìn)攻|講話|檢測(cè)|有毒-話題:6性別|偏置|偏見(jiàn)|去偏|公平-標(biāo)題:7ner|命名|實(shí)體|識(shí)別|嵌套-->主題建模變化,(第4章令牌和令牌嵌入給早期發(fā)行版讀者的說(shuō)明任務(wù),如命名實(shí)體識(shí)別。在本章中,我們將著名的word2vec嵌入方法,并了解它如LLM代幣化標(biāo)記器如何準(zhǔn)備語(yǔ)言模型的輸入接下來(lái)的代碼塊顯示了defgenermodel_name=“openchat/openchat”)tokenizer處理輸入提示,并在變量input_ids中返回模型所需標(biāo)記(字符,單詞或單詞的一部分)的唯一ID。這些I如圖4-3所示標(biāo)記器處理輸入提示,并將實(shí)際輸入準(zhǔn)備到語(yǔ)言模如果我們想檢查這些ID,我們可以使用toke))M.它..第一個(gè)標(biāo)記是ID為#1的標(biāo)記,即s>,這是一個(gè)指示文本開(kāi).一些標(biāo)記是完整的單詞(例如,寫,一封,電子郵件).請(qǐng)注意空格字符沒(méi)有自己的標(biāo)記。相反,部分標(biāo)記(如'izing'和'iEncoding(簡(jiǎn)稱BPE,廣泛用于GPT模型),WordP如圖4-4。令牌化器還用于通過(guò)將輸出令牌ID轉(zhuǎn)換為與該ID相單詞與子字與角色與字節(jié)令牌字記號(hào)這種方法在Word2Vec等早期方法中法處理進(jìn)入數(shù)據(jù)集的新詞。它還產(chǎn)生了一個(gè)詞匯表,該詞匯表具有許多標(biāo)記,它們之間的差異最小(例如,道歉,道歉者。后一個(gè)挑戰(zhàn)通過(guò)子詞標(biāo)記化來(lái)解決,正如我們所看到的,它有一個(gè)用于“道),子字令牌角色令牌了對(duì)序列的其余部分進(jìn)行建模之外,還需要對(duì)信息進(jìn)行建模以拼出“p-l-a-y”。字節(jié)令牌ByT5:使用預(yù)訓(xùn)練的字節(jié)到字節(jié)模型走向無(wú)令牌的未比較經(jīng)過(guò)訓(xùn)練的LLM令牌化器tokenization方法,我們用來(lái)初tokenizer訓(xùn)練的數(shù)據(jù)集。讓我們比較和對(duì)比一些實(shí)際的,u堩蟠這將使我們能夠看到每個(gè)tokenizer如何.資本化.英語(yǔ)以外的其他語(yǔ)言.數(shù)字和數(shù)字讓我們從較老的tokenizer到較新的tokenizer,看看它們?nèi)绾螌?duì)文本進(jìn)行tokenizer,以及這可能對(duì)語(yǔ)言模型有什么影響。我們將對(duì)文本進(jìn)行“[UNK]”“sep_token”:“[SEP]”“cls_token”:“[CLS]”“mask_token”:對(duì)于BERTtokenizer的未封裝(更.換行符消失了,這使得模型對(duì)換行符中編碼的信息視而不見(jiàn)聊天記錄.所有文字都是小寫的.單詞“capitalization”被編碼為兩個(gè)子標(biāo)記capital##izatio##字符用于指示此標(biāo)記是連接到它前面的標(biāo)記的部.表情符號(hào)和漢字消失了,取而代之的是[UNK]特殊令牌,表示“.注意“CAPITALIZATION”現(xiàn)在如何表示為八個(gè)標(biāo)記:CA##PI.兩個(gè)BERTtokenizer都將輸入包裝在一個(gè)起始[CLS]token和一個(gè)[SEP]token中。[CLS]和[SEP]是用于標(biāo)記化方法:BPE,在NeuralMachineTranslationof現(xiàn)在,每個(gè)字符都表示為多個(gè)令牌。雖然我們看到這些標(biāo)記被打印為字符,但它們實(shí)際上代表不同的標(biāo)記。例如,該表情符號(hào)被分解為令牌ID為8582、236和113的令牌。標(biāo)記器成功地從這些標(biāo)記重建原始字符。我們可以看到,通過(guò)打印tokenizer.decode([8582,236,113]),它將輸出tokenizer.decode([8582,236,),),示為三個(gè)標(biāo)記(編號(hào)220最后一個(gè)空格是結(jié)束引號(hào)字符標(biāo)空白字符的意義是什么?這些對(duì)于理解或生成代碼的模型很續(xù)空格字符的模型可以說(shuō)是更適合Python代碼數(shù)據(jù)集。雖然模型可以將其表示記,但這確實(shí)使建模變得更加困難,因?yàn)槟P托枰櫩s進(jìn)級(jí)別。這是一個(gè)標(biāo)記化方法:SentencePiece,在SentenceP.沒(méi)有換行或空白標(biāo)記,這將使模型處理代碼變得具有挑戰(zhàn)性“兩個(gè)標(biāo)簽:“兩個(gè)標(biāo)簽:”".GPT-4標(biāo)記器將四個(gè)空格表示為單個(gè)標(biāo)記。事.python關(guān)鍵字elif在GPT-4中有自己的標(biāo)記。這一點(diǎn)和前一點(diǎn).GPT-4標(biāo)記器使用更少的標(biāo)記來(lái)表示大多數(shù)單詞。這里的例子'CAPITALIZATION'(兩個(gè)令牌對(duì)四個(gè))“文件名>"tokenizer還包括一堆特殊的令牌,以便在代碼上執(zhí)行得更好“issue_start>”“jupyte>”四個(gè)空格:““兩個(gè)制表符:“.與GPT-4類似,它將空白列表編碼為單個(gè).到目前為止,我們看到的每個(gè)人的一個(gè)主要區(qū)別是每個(gè)數(shù)字都被分配在《卡拉狄加:科學(xué)的大型語(yǔ)言模型》中描22英語(yǔ)和意大利語(yǔ)英語(yǔ)和資本化英語(yǔ)和資本化英文和大寫<s>EnglishandCAPITALIZATION2-70b-chat-hf令牌化器屬性但是是什么決定了他們的代幣化行為呢?有三器如何分解文本:分詞方法、初始化參數(shù)和我WordPiece和SentencePiece是一些比較流行的方法。這些在選擇了標(biāo)記化方法之后,LLM設(shè)計(jì)者需要詞匯量特殊卡圖.填充令牌牌.掩蔽令牌注的問(wèn)題的域,正如我們?cè)贕alactica的工作>和[資本化都轉(zhuǎn)換成小寫嗎?(Name大寫通常攜帶有?)有些模型同時(shí)發(fā)布了cased和uncased版本(比如Bert據(jù)集而有所不同(甚至在我們開(kāi)始模型訓(xùn)練方法通過(guò)優(yōu)化詞匯表來(lái)表示特定的數(shù)據(jù)集。):):):《NaturalLanguageProcessingwithT一種語(yǔ)言模型為其標(biāo)記器的詞匯保持嵌入圖4-6.語(yǔ)言模型在其分詞器中保存與每個(gè)標(biāo)記相關(guān)聯(lián)的用語(yǔ)言模型創(chuàng)建上下文化的詞嵌入),在前一段中提到的文本應(yīng)用程序之外,這些情fromfromt
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)生升旗儀式演講稿
- 巾幗奮斗者演講稿
- 集裝箱轉(zhuǎn)租合同范本
- 醫(yī)院助力鄉(xiāng)村振興協(xié)議書
- 修路工程咨詢合同范本
- 勞務(wù)施工承包安全協(xié)議書
- 水泥發(fā)泡承包合同范本
- 延期納稅提供擔(dān)保協(xié)議書
- 個(gè)人勞務(wù)合同安全協(xié)議書
- 臨時(shí)項(xiàng)目安全生產(chǎn)協(xié)議書
- 《中小學(xué)生端午節(jié)安全教育主題班會(huì)》課件
- 高級(jí)網(wǎng)絡(luò)技術(shù)試題及答案
- 2025年春季《中華民族共同體概論》第二次平時(shí)作業(yè)-國(guó)開(kāi)(XJ)-參考資料
- 第3章 一元一次不等式(組)單元測(cè)試(原卷)2024-2025學(xué)年湘教版七年級(jí)數(shù)學(xué)下冊(cè)
- 股權(quán)終止合作協(xié)議書
- 河南省鄭州市2025年中考二模語(yǔ)文試題(含答案)
- 2025園林景觀設(shè)計(jì)合同范本
- 《海南三亞西島景區(qū)營(yíng)銷現(xiàn)狀問(wèn)卷調(diào)查及營(yíng)銷問(wèn)題和優(yōu)化對(duì)策》12000字
- 江蘇省蘇、錫、常、鎮(zhèn)2025屆高考仿真模擬生物試卷含解析
- 北理工-學(xué)術(shù)論文寫作與表達(dá)-期末考試答案-適用40題版本
- (高清版)TDT 1042-2013 土地整治工程施工監(jiān)理規(guī)范
評(píng)論
0/150
提交評(píng)論