




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
區(qū)塊鏈行業(yè)專題研究:AIGC~Web3時(shí)代的生產(chǎn)力工具1.2022:AIGC崛起之年近期,硅谷的眾多一線VC們開(kāi)始將目光瞄準(zhǔn)AI初創(chuàng)公司,尤其是生成式AI藝術(shù)這一領(lǐng)域。今年9月23日,紅杉美國(guó)官網(wǎng)發(fā)表了一篇名為《生成式AI:一個(gè)創(chuàng)造性的新世界》的文章,認(rèn)為AIGC(AI-GeneratedContent人工智能生成內(nèi)容)會(huì)代表新一輪范式轉(zhuǎn)移的開(kāi)始。2022年10月,英國(guó)開(kāi)源人工智能公司StabilityAI宣布獲得1.01億美元融資,估值高達(dá)10億美元,躋身獨(dú)角獸行列,由Coatue、LightspeedVenturePartners和O'ShaughnessyVenturesLLC參與投資。StabilityAI今年發(fā)布了StableDiffusion的模型,主要用于根據(jù)用戶輸入的文字描述自動(dòng)生成圖像。StableDiffusion的誕生讓AI繪畫(huà)這個(gè)領(lǐng)域愈發(fā)火爆。最近,巴比特正式對(duì)外宣布,全面擁抱AIGC,開(kāi)始規(guī)?;捎肁I配圖,其中頭條圖片,全面由AI創(chuàng)作。包括但不限于巴比特網(wǎng)站和APP,微信公眾號(hào)、百家號(hào)、網(wǎng)易號(hào)等自媒體平臺(tái),以及微博等社交媒體賬號(hào)。除了繪畫(huà)以外,文字、音頻、視頻均可通過(guò)AI來(lái)生成。文字:以Jasper為例,以AI文字生成為主打產(chǎn)品,通過(guò)其文字生成功能,用戶可以生成Instagram標(biāo)題,編寫(xiě)TikTok視頻腳本、廣告營(yíng)銷文本、電子郵件內(nèi)容等工作。截止2021年,Japer已擁有超過(guò)70000位客戶,并創(chuàng)造了4000萬(wàn)美元的收入。音頻:以Podcast.ai為例,作為一個(gè)由AI生成的博客,每周都會(huì)探討一個(gè)話題。在第一期節(jié)目中,其通過(guò)喬布斯的傳記和收集網(wǎng)絡(luò)上關(guān)于他的所有錄音,Play.ht的語(yǔ)言模型大量訓(xùn)練,最終生成了一段假JoeRogan采訪喬布斯的播客內(nèi)容。視頻:目前的AI技術(shù)不僅可以生成圖片,也能夠生成序列幀,如:《幻覺(jué)東京》。經(jīng)過(guò)160小時(shí),完成3萬(wàn)多張獨(dú)立插畫(huà),再進(jìn)行手動(dòng)微調(diào)。雖然目前還只是在原腳本和視頻的基礎(chǔ)上,通過(guò)AI逐幀完成圖片生成的,但看到了AIGC參與到視頻創(chuàng)作中的可能。而在諸多垂直類應(yīng)用中,如體育、財(cái)經(jīng)等,已經(jīng)可以通過(guò)文字直接生成相應(yīng)的短視頻,如果配上虛擬人則可以實(shí)現(xiàn)自動(dòng)播報(bào)。相比于單一的虛擬人讀稿,基于AIGC生產(chǎn)的內(nèi)容在鏡頭轉(zhuǎn)換、表情動(dòng)作結(jié)合方面更加逼真。隨著NLP(NaturalLanguageProcessing,自然語(yǔ)言處理)技術(shù)和擴(kuò)散模型(DiffusionModel)的發(fā)展,AI創(chuàng)造生成內(nèi)容成為了可能。此前,內(nèi)容生成主要運(yùn)用GAN(GenerativeAdversarialNetwork,生成對(duì)抗網(wǎng)絡(luò))來(lái)實(shí)現(xiàn)的,GAN不同于擴(kuò)散模型依賴于超大規(guī)模語(yǔ)言模型,因此難以實(shí)現(xiàn)通過(guò)文字的描述,自主理解內(nèi)容并創(chuàng)造出圖像、視頻等。近年來(lái),隨著擴(kuò)散模型的成熟,生成方式更接近于人腦的聯(lián)想,AIGC完成了內(nèi)容創(chuàng)造輔助工具到內(nèi)容創(chuàng)作主體的角色轉(zhuǎn)變。2.AIGC是什么?AIGC是通過(guò)人工智能技術(shù)自動(dòng)生成內(nèi)容的生產(chǎn)方式。從Web1.0的單向信息傳遞的“只讀”模式到Web2.0的人與人通過(guò)網(wǎng)絡(luò)雙向溝通交流的“交互”模式,內(nèi)容的需求在不斷增加。為了滿足這一需求,同時(shí)也因?yàn)榛ヂ?lián)網(wǎng)的發(fā)展,內(nèi)容的生成從單一的PGC演變到了現(xiàn)在的UGC并占據(jù)了主要市場(chǎng)。Youtube、Instagram、抖音、快手、B站上有大量的內(nèi)容來(lái)自于UGC創(chuàng)作者。當(dāng)我們邁入Web3.0時(shí)代,人工智能、關(guān)聯(lián)數(shù)據(jù)和語(yǔ)義網(wǎng)絡(luò)構(gòu)建,形成人與機(jī)器網(wǎng)絡(luò)的全面鏈接,內(nèi)容消費(fèi)需求飛速增長(zhǎng),UGC\PGC這樣的內(nèi)容生成方式將難以匹配擴(kuò)張的需求。我們認(rèn)為,AIGC將是Web3時(shí)代全新的內(nèi)容生成工具,同樣,將對(duì)現(xiàn)有的短視頻、游戲及廣告行業(yè)帶來(lái)巨大的影響。AIGC的生成利用人工智能學(xué)習(xí)知識(shí)圖譜、自動(dòng)生成,在內(nèi)容的創(chuàng)作為人類提供協(xié)助或是完全由AI產(chǎn)生內(nèi)容。不僅能幫助提高內(nèi)容生成的效率,還能提高內(nèi)容的多樣性。2.1AIGC發(fā)展簡(jiǎn)史AIGC的發(fā)展可以大致分為以下三個(gè)階段:
早期萌芽階段:20世紀(jì)50年代—90年代中期,受限于科技水平,AIGC僅限于小范圍實(shí)驗(yàn);
沉積積累階段:20世紀(jì)90年代中期—21世紀(jì)10年代中期,AIGC從實(shí)驗(yàn)向?qū)嵱棉D(zhuǎn)變,受限于算法,無(wú)法直接進(jìn)行內(nèi)容生成
;
快速發(fā)展階段:21世紀(jì)10年代中期—現(xiàn)在,深度學(xué)習(xí)算法不斷迭代,AI生成內(nèi)容種類多樣豐富且效果逼真。近年來(lái),AIGC的發(fā)展迅速,從原來(lái)作為邊緣側(cè)服務(wù)于企業(yè)、機(jī)構(gòu)的角色變?yōu)榱爽F(xiàn)在C端零基礎(chǔ)用戶都可以使用的創(chuàng)作工具。開(kāi)發(fā)側(cè)重點(diǎn)上,AIGC也從原先用于翻譯、語(yǔ)音合成以及重復(fù)性工作轉(zhuǎn)變?yōu)榱烁⒅貞?yīng)用層面,用戶能夠便捷操作的方向。2.2技術(shù)隨著NLP(NaturalLanguageProcessing,自然語(yǔ)言處理)技術(shù)和擴(kuò)散模型(DiffusionModel)的發(fā)展,AI不再僅作為內(nèi)容創(chuàng)造的輔助工具,創(chuàng)造生成內(nèi)容成為了可能。自然語(yǔ)言處理技術(shù)NLP自然語(yǔ)言處理是實(shí)現(xiàn)人與計(jì)算機(jī)之間如何通過(guò)自然語(yǔ)言進(jìn)行交互的手段。融合了語(yǔ)言學(xué)、計(jì)算機(jī)學(xué)、數(shù)學(xué),使得計(jì)算機(jī)可以理解自然語(yǔ)言,提取信息并自動(dòng)翻譯、分析和處理。在自然語(yǔ)言處理技術(shù)發(fā)展之前,人類只能通過(guò)一些固定模式的指令來(lái)與計(jì)算機(jī)進(jìn)行溝通,這對(duì)于人工智能的發(fā)展是一個(gè)重大的突破。自然語(yǔ)言處理最早可以追溯到1950年,圖靈發(fā)表論文“計(jì)算機(jī)器與智能”,提出“圖靈測(cè)試”的概念作為判斷智能的條件。這一測(cè)試包含了自動(dòng)語(yǔ)意翻譯和自然語(yǔ)言生成。自然語(yǔ)言處理技術(shù)可以分為兩個(gè)核心任務(wù):自然語(yǔ)言理解NLU:希望計(jì)算機(jī)能夠和人一樣,具備正常人的語(yǔ)言理解能力。過(guò)去,計(jì)算機(jī)只能處理結(jié)構(gòu)化的數(shù)據(jù),NLU使得計(jì)算機(jī)能夠識(shí)別和提取語(yǔ)言中的意圖來(lái)實(shí)現(xiàn)對(duì)于自然語(yǔ)言的理解。由于自然語(yǔ)言的多樣性、歧義性、知識(shí)依賴性和上下文,計(jì)算機(jī)在理解上有很多難點(diǎn),所以NLU至今還遠(yuǎn)不如人類的表現(xiàn)。自然語(yǔ)言理解跟整個(gè)人工智能的發(fā)展歷史類似,一共經(jīng)歷了3次迭代:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和基于深度學(xué)習(xí)的方法。自然語(yǔ)言生成NLG:將非語(yǔ)言格式的數(shù)據(jù)轉(zhuǎn)換成人類可以理解的語(yǔ)言格式,如文章、報(bào)告等。NLG的發(fā)展經(jīng)歷了三個(gè)階段,從早期的簡(jiǎn)單的數(shù)據(jù)合并到模板驅(qū)動(dòng)模式再到現(xiàn)在的高級(jí)NLG,使得計(jì)算機(jī)能夠像人類一樣理解意圖,考慮上下文,并將結(jié)果呈現(xiàn)在用戶可以輕松閱讀和理解的敘述中。自然語(yǔ)言生成可以分為以下六個(gè)步驟:
內(nèi)容確定、文本結(jié)構(gòu)、句子聚合、語(yǔ)法化、參考表達(dá)式生成和語(yǔ)言實(shí)現(xiàn)。NLP主要被應(yīng)用在四個(gè)方面:
情感分析:互聯(lián)網(wǎng)上存在大量的信息,表達(dá)的內(nèi)容都是多種多樣的,但抒發(fā)的感情大致可以分為正面和負(fù)面的,可以被用來(lái)快速了解用戶的輿情情況。聊天機(jī)器人:近年來(lái),智能家居的發(fā)展和普及使得聊天機(jī)器人的價(jià)值擴(kuò)大。語(yǔ)音識(shí)別:微信中可以通過(guò)語(yǔ)音進(jìn)行輸入或直接將語(yǔ)音轉(zhuǎn)化為文字,汽車導(dǎo)航可以直接說(shuō)目的地,大大提升了便利性。機(jī)器翻譯:機(jī)器翻譯的準(zhǔn)確率在近年大幅提高,youtube和netflix甚至可以做到視頻機(jī)器翻譯。商業(yè)上,NLP主要被應(yīng)用在一下領(lǐng)域:
用于處理財(cái)務(wù)、醫(yī)療保健、零售、政府和其他部門手寫(xiě)或機(jī)器建立檔案。文字處理工作,如:名稱實(shí)體辨識(shí)(NER)、分類、摘要和關(guān)聯(lián)擷取。這能將擷取、識(shí)別和分析文檔資訊的流程自動(dòng)化。語(yǔ)意搜尋和資訊擷取和知識(shí)圖表建立。跨零售、財(cái)務(wù)、旅游和其他產(chǎn)業(yè)客戶的交互AI系統(tǒng)等。神經(jīng)網(wǎng)絡(luò),尤其是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是當(dāng)前NLP的主要方法的核心。其中,2017年由Google開(kāi)發(fā)的Transformer模型現(xiàn)已逐步取代長(zhǎng)短期記憶(LSTM)等RNN模型成為了NLP問(wèn)題的首選模型。Transformer的并行化優(yōu)勢(shì)允許其在更大的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這也促成了BERT、GPT等預(yù)訓(xùn)練模型的發(fā)展。這些系統(tǒng)使用了維基百科、CommonCrawl等大型語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,并可以針對(duì)特定任務(wù)進(jìn)行微調(diào)。Transformer模型是一種采用自注意力機(jī)制的深度學(xué)習(xí)模型,這一機(jī)制可以按輸入數(shù)據(jù)各部分重要性的不同而分配不同的權(quán)重。除了NLP以外,也被用于計(jì)算機(jī)視覺(jué)領(lǐng)域。與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)一樣,Transformer模型旨在處理自然語(yǔ)言等順序輸入數(shù)據(jù),可應(yīng)用于翻譯、文本摘要等任務(wù)。而與RNN不同的是,Transformer模型能夠一次性處理所有輸入數(shù)據(jù)。注意力機(jī)制可以為輸入序列中的任意位置提供上下文。如果輸入數(shù)據(jù)是自然語(yǔ)言,則Transformer不必像RNN一樣一次只處理一個(gè)單詞,這種架構(gòu)允許更多的并行計(jì)算,并以此減少訓(xùn)練時(shí)間。AIGC生成模型近年來(lái),AIGC的快速發(fā)展歸功于生成算法領(lǐng)域的技術(shù)積累,其中包含了:生成對(duì)抗網(wǎng)絡(luò)
(GAN)、變微分自動(dòng)編碼器(VAE)、標(biāo)準(zhǔn)化流模型(NFs)、自回歸模型(AR)、能量模型和擴(kuò)散模型(DiffusionModel)??梢钥吹?,大模型、大數(shù)據(jù)、大算力是未來(lái)的發(fā)展趨勢(shì)。我們認(rèn)為,算法模型的突破是近年來(lái)AIGC得以快速突破的催化劑,下面將展開(kāi)介紹一下兩個(gè)非常常用的模型,分別是生成對(duì)抗網(wǎng)絡(luò)和擴(kuò)散模型。生成對(duì)抗網(wǎng)絡(luò)GAN(GenerativeAdversarialNetworks)2014年,IanJ.Goodfellow提出了GAN,是一種深度神經(jīng)網(wǎng)絡(luò)架構(gòu),由一個(gè)生成網(wǎng)絡(luò)和一個(gè)判別網(wǎng)絡(luò)組成。生成網(wǎng)絡(luò)產(chǎn)生“假”數(shù)據(jù),并試圖欺騙判別網(wǎng)絡(luò);判別網(wǎng)絡(luò)對(duì)生成數(shù)據(jù)進(jìn)行真?zhèn)舞b別,試圖正確識(shí)別所有“假”數(shù)據(jù)。在訓(xùn)練迭代的過(guò)程中,兩個(gè)網(wǎng)絡(luò)持續(xù)地進(jìn)化和對(duì)抗,直到達(dá)到平衡狀態(tài),判別網(wǎng)絡(luò)無(wú)法再識(shí)別“假”數(shù)據(jù),訓(xùn)練結(jié)束。GAN被廣泛應(yīng)用于廣告、游戲、娛樂(lè)、媒體、制藥等行業(yè),可以用來(lái)創(chuàng)造虛構(gòu)的人物、場(chǎng)景,模擬人臉老化,圖像風(fēng)格變換,以及產(chǎn)生化學(xué)分子式等等。其優(yōu)點(diǎn)在于:
能更好建模數(shù)據(jù)分布。無(wú)需利用馬爾科夫鏈反復(fù)采樣,無(wú)需在學(xué)習(xí)過(guò)程中進(jìn)行推斷,沒(méi)有復(fù)雜的變分下界,避開(kāi)近似計(jì)算棘手的概率的難題缺點(diǎn):
難訓(xùn)練,不穩(wěn)定。生成器和判別器之間需要很好的同步,但是在實(shí)際訓(xùn)練中很容易判別器收斂,生成器發(fā)散。兩者的訓(xùn)練需要精心的設(shè)計(jì)。模式缺失(ModeCollapse)問(wèn)題。GANs的學(xué)習(xí)過(guò)程可能出現(xiàn)模式缺失,生成器開(kāi)始退化,總是生成同樣的樣本點(diǎn),無(wú)法繼續(xù)學(xué)習(xí)。擴(kuò)散模型DiffusionModel擴(kuò)散模型是一種新型的生成模型,可生成各種高分辨率圖像。在OpenAI,Nvidia和Google設(shè)法訓(xùn)練大模型之后,它們已經(jīng)引起了很多關(guān)注?;跀U(kuò)散模型的示例架構(gòu)包括GLIDE,DALLE-2,Imagen和完全開(kāi)源的穩(wěn)定擴(kuò)散。擴(kuò)散模型已經(jīng)擁有了成為下一代圖像生成模型的代表的潛力。以DALL-E為例,能夠直接通過(guò)文本描述生成圖像,讓計(jì)算機(jī)也擁有了人的創(chuàng)造力。擴(kuò)散模型的生成邏輯相比其他的模型更接近人的思維模式,也是為什么近期AIGC擁有了開(kāi)放性的創(chuàng)造力。本質(zhì)上,擴(kuò)散模型的工作原理是通過(guò)連續(xù)添加高斯噪聲來(lái)破壞訓(xùn)練數(shù)據(jù),然后通過(guò)反轉(zhuǎn)這個(gè)噪聲過(guò)程來(lái)學(xué)習(xí)恢復(fù)數(shù)據(jù)。訓(xùn)練后,我們可以通過(guò)簡(jiǎn)單地將隨機(jī)采樣的噪聲傳遞給學(xué)習(xí)的去噪過(guò)程來(lái)生成數(shù)據(jù)。相比于其他模型,擴(kuò)散模型的優(yōu)勢(shì)在于生成的圖像質(zhì)量更高,且無(wú)需通過(guò)對(duì)抗性訓(xùn)練,這使得其訓(xùn)練的效率有所提升。同時(shí),擴(kuò)散模型還具有可擴(kuò)展性和并行性。高斯噪聲是一種概率密度函數(shù)符合正態(tài)分布的函數(shù),當(dāng)AIGC運(yùn)用擴(kuò)散模型來(lái)生成內(nèi)容的時(shí)候,是通過(guò)在一副純白的畫(huà)布(隨機(jī)白噪聲)上逐步去噪來(lái)生成最終的目標(biāo)畫(huà)作。即用戶給出的文本描述形容詞,來(lái)從一個(gè)模糊的概念逐步具象。我們可以簡(jiǎn)化為多個(gè)正態(tài)分布函數(shù)的疊加,模型選擇其中重疊的區(qū)間輸出,這也是一個(gè)逐步縮小范圍的過(guò)程。這與人類的思維模式很類似。簡(jiǎn)言之,在AI訓(xùn)練階段,我們將數(shù)據(jù)集中上億組圖文對(duì)進(jìn)行訓(xùn)練,提取特征值;生產(chǎn)過(guò)程中,通過(guò)添加文字描述,引入不同的特征值進(jìn)行去噪,從而生產(chǎn)一副AI理解下的內(nèi)容作品。例如,在當(dāng)我們?cè)谀X海中想象一個(gè)畫(huà)面的時(shí)候,比如:一只柯基通過(guò)一個(gè)小號(hào)玩火焰。我們的思維模式也是先有一只柯基,再去想象小號(hào)和火焰,最后將這些元素疊加在柯基身上。簡(jiǎn)述完原理以后,我們可以通過(guò)目前非常先進(jìn)的AI圖像生成應(yīng)用DALL-E2來(lái)舉例闡述具體的工作過(guò)程:
將文本提示輸入到一個(gè)經(jīng)過(guò)訓(xùn)練能夠?qū)⑻崾居成涞奖硎究臻g的文本編碼器中;
通過(guò)一個(gè)被稱為“先驗(yàn)”(Prior)的模型,將文本編碼映射到圖像編碼器中。這一圖像編碼器會(huì)捕獲文本編碼包含的信息和語(yǔ)義;
圖像編碼器隨機(jī)生成一個(gè)圖像,這一圖像是該語(yǔ)義信息的視覺(jué)表現(xiàn)。這一個(gè)過(guò)程和人類的思維模式相似。在生成的過(guò)程中,涉及到了文本編碼器這一概念,目前主流的文本編碼器是來(lái)自于OpenAI的Clip模型,其通過(guò)4億組文字-圖片對(duì)進(jìn)行訓(xùn)練。當(dāng)然,其中的模型訓(xùn)練都是基于英文實(shí)現(xiàn),語(yǔ)言的區(qū)別又會(huì)給AIGC帶來(lái)另一重挑戰(zhàn)。除了上述提到的自然語(yǔ)言處理技術(shù)和AIGC生成算法模型以外,超級(jí)計(jì)算機(jī)和算力這些硬件作為基礎(chǔ)設(shè)施也是不可或缺的。在機(jī)器學(xué)習(xí)的過(guò)程中,需要通過(guò)大量的訓(xùn)練來(lái)實(shí)現(xiàn)更準(zhǔn)確的結(jié)果,這樣的計(jì)算量普通的電腦是無(wú)法完成的,目前主要由英偉達(dá)
A100構(gòu)建的計(jì)算集群完成,而國(guó)內(nèi)外的初創(chuàng)企業(yè)也會(huì)通過(guò)云實(shí)現(xiàn)。2.3當(dāng)我們開(kāi)始用AIGC——商業(yè)模式的探索AIGC已被廣泛應(yīng)用在文字、圖像、音頻、游戲和代碼的生成當(dāng)中,一些較早創(chuàng)立的企業(yè)已經(jīng)實(shí)現(xiàn)了較好的商業(yè)化。尤其在一些具備高重復(fù)性的任務(wù)、對(duì)于精度要求并不那么高的領(lǐng)域應(yīng)用較為成熟。隨著AIGC技術(shù)的發(fā)展,其適用面將會(huì)逐漸擴(kuò)大。這類AIGC服務(wù)的提供商大多數(shù)時(shí)候會(huì)以提供SaaS服務(wù)的形式變現(xiàn)。文字創(chuàng)作AIGC生成文字目前主要被應(yīng)用于新聞的撰寫(xiě)、給定格式的撰寫(xiě)以及風(fēng)格改寫(xiě)。其中,有一家成立還不滿兩年的獨(dú)角獸企業(yè)Jasper在最新一輪的融資里獲得了1.25億美元資金,目前估值為15億美元。Jasper成立于2021年,是一個(gè)AI內(nèi)容平臺(tái),允許個(gè)人和團(tuán)隊(duì)利用AI來(lái)創(chuàng)作內(nèi)容,多用于商業(yè)。用戶可以在借助Jasper生成具有豐富關(guān)鍵詞、搜索引擎優(yōu)化的原創(chuàng)博客,可以通過(guò)文字描述讓Jasper幫助完成文章的創(chuàng)作、創(chuàng)建廣告話術(shù)。通過(guò)Jasper用戶可以尋找創(chuàng)作思路、高效完成文案、突破語(yǔ)言壁壘,而不會(huì)存在抄襲的嫌疑。目前,Jasper擁有7萬(wàn)多名客戶,包括Airbnb、Ibm等企業(yè)。僅2021年一年便創(chuàng)造了4000萬(wàn)美元的收入,今年預(yù)估收入為9000萬(wàn)美元。用戶可以通過(guò)輸入一段對(duì)于目標(biāo)文章的描述或者要求,系統(tǒng)會(huì)自動(dòng)抓取數(shù)據(jù),根據(jù)我們描述的指令進(jìn)行創(chuàng)作。作者本人進(jìn)行如下實(shí)驗(yàn),輸入的描述為【寫(xiě)一篇關(guān)于AIGC的文章,其中要包含AIGC的定義、發(fā)展史、應(yīng)用、現(xiàn)階段發(fā)展情況和對(duì)于未來(lái)發(fā)展趨勢(shì)的看法,同時(shí),要包含細(xì)節(jié)和舉例】。同時(shí),在風(fēng)格上我選擇了“專業(yè)性”。Jasper很快就生成了一篇AIGC撰寫(xiě)的AIGC文章(如下圖所示),可以看到這篇文章語(yǔ)義通順,按照我們給出的描述逐段闡述,并且包含了一些舉例,這個(gè)生成效果無(wú)疑會(huì)大幅度提升人類的寫(xiě)作效率。并且,在Jasper的網(wǎng)頁(yè)版APP上,還給出了數(shù)百種模板,可以根據(jù)需求更好的完成作品。圖像創(chuàng)作MidJourney降低了藝術(shù)繪畫(huà)創(chuàng)作的門檻,用戶只需要通過(guò)輸入文字描述,計(jì)算機(jī)將會(huì)自動(dòng)生成一張作品。其背后的邏輯在于計(jì)算機(jī)通過(guò)NLP識(shí)別語(yǔ)意并翻譯成計(jì)算機(jī)語(yǔ)言,結(jié)合后臺(tái)的數(shù)據(jù)集(這些數(shù)據(jù)集主要通過(guò)自有素材或機(jī)器人爬取公開(kāi)版權(quán)的內(nèi)容獲得),創(chuàng)作出一副全新的作品。這樣產(chǎn)生的作品原則上屬于AI創(chuàng)作,因此,在新聞媒體等平臺(tái)被廣泛使用,不僅減少了成本,同時(shí)避免了潛在的版權(quán)糾紛風(fēng)險(xiǎn)。除此以外,在抖音、微信等社交平臺(tái)上,已經(jīng)有一些數(shù)據(jù)集圖庫(kù)博主通過(guò)AIGC創(chuàng)造素材并結(jié)合自己的私域流量進(jìn)行商業(yè)變現(xiàn)。近期,OpenAI已經(jīng)與全球最大的版權(quán)圖片供應(yīng)商之一的Shutterstock達(dá)成深度合作,Shutterstock將開(kāi)始出售利用OpenAI的DALL-E生成的圖片,并禁止銷售非DALL-E生成的圖片,完成深度獨(dú)家綁定。AIGC除了大家熟知的生成繪畫(huà)以外,還可以利用這一功能完成文字和圖片的互相轉(zhuǎn)換,這在寫(xiě)專利時(shí)可以被用到。視頻創(chuàng)作除了繪畫(huà)以外,AIGC也能夠被運(yùn)用在視頻創(chuàng)作中。Google推出了AI視頻生成模型Phenaki能夠根據(jù)文本內(nèi)容生成可變時(shí)長(zhǎng)視頻的技術(shù),在公布的DEMO中,Phenaki基于幾百個(gè)單詞組成一段前后邏輯連貫的視頻只需兩分鐘。相比原有的Imagen基礎(chǔ)上衍生的ImagenVideo瞄準(zhǔn)短視頻,Phenaki瞄準(zhǔn)的是長(zhǎng)視頻。AIGC視頻中的運(yùn)用,讓我們看到了未來(lái)虛擬人也能夠作為演員在影視劇中扮演不同的角色以提高內(nèi)容產(chǎn)出的效率和多樣性。音頻剪輯AIGC生成音頻早被應(yīng)用于我們的日常生活當(dāng)中。我們常用的手機(jī)導(dǎo)航,可以切換不同明星甚至于卡通人物的語(yǔ)音提示。這是通過(guò)提前請(qǐng)明星或卡通人物的配音朗讀完成一個(gè)語(yǔ)音庫(kù),再通過(guò)反復(fù)的訓(xùn)練學(xué)習(xí)使得可以用指定的聲音說(shuō)出任何話。我們自己也可以通過(guò)高德地圖錄制自己的語(yǔ)音導(dǎo)航包。而更深層次的應(yīng)用將會(huì)是虛擬人領(lǐng)域,AIGC不僅可以生成虛擬人的聲音,并可以創(chuàng)造出說(shuō)的內(nèi)容。虛擬人在未來(lái)有望和我們一樣表達(dá)自己的想法,靈魂逐步顯現(xiàn)。游戲開(kāi)發(fā)AIGC在游戲當(dāng)中的應(yīng)用可以分為兩方面,一方面是用于場(chǎng)景和故事的搭建。開(kāi)放世界游戲越來(lái)越受歡迎,通過(guò)AIGC來(lái)創(chuàng)建場(chǎng)景和NPC都將會(huì)大幅度提升效率和降低成本。另一方面,玩家可以通過(guò)AIGC的平臺(tái)工具來(lái)創(chuàng)建自己的虛擬人,可以用于游戲中的打金等活動(dòng)。有一家叫做Delysium的游戲已經(jīng)開(kāi)始引入這一功能?;蛟S在未來(lái)的開(kāi)放世界游戲中,不同的玩家將對(duì)應(yīng)不同的游戲劇情和副本,這無(wú)疑將是令人興奮的應(yīng)用。代碼生成GitHubCopilot是一個(gè)GitHub和OpenAI合作產(chǎn)生的AI代碼生成工具,可根據(jù)命名或者正在編輯的代碼上下文為開(kāi)發(fā)者提供代碼建議。官方介紹其已經(jīng)接受了來(lái)自GitHub上公開(kāi)可用存儲(chǔ)庫(kù)的數(shù)十億行代碼的訓(xùn)練,支持大多數(shù)編程語(yǔ)言。3.AIGC的未來(lái)發(fā)展趨勢(shì)AIGC是PGC、UGC之后,全新的內(nèi)容生產(chǎn)方式。不僅能提升內(nèi)容生產(chǎn)的效率以滿足我們飛速增長(zhǎng)的內(nèi)容需求,也能夠豐富內(nèi)容的多樣性。在2022年百度世界大會(huì)上,李彥宏提到了:“AIGC將走過(guò)三個(gè)發(fā)展階段:第一個(gè)階段是“助手階段”,AIGC用來(lái)輔助人類進(jìn)行內(nèi)容生產(chǎn);第二個(gè)階段是“協(xié)作階段”,AIGC以虛實(shí)并存的虛擬人形態(tài)出現(xiàn),形成人機(jī)共生的局面;第三個(gè)階段是“原創(chuàng)階段”,AIGC將獨(dú)立完成內(nèi)容創(chuàng)作。未來(lái)十年,AIGC將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式,可以實(shí)現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容?!?.1面臨的挑戰(zhàn)技術(shù)上來(lái)看,雖然當(dāng)前生成的圖片、文字已經(jīng)可以用以商業(yè)用途,但還存在一些問(wèn)題使得無(wú)法滿足較高的質(zhì)量要求。我們可以發(fā)現(xiàn)在二次元或抽象的圖片生成中,AIGC的表現(xiàn)較好。但對(duì)于比較具體和細(xì)節(jié)的內(nèi)容,生成的效果不盡如人意。下圖是筆者通過(guò)AIGC生成的一副“美女與布偶貓”的圖片,從這一張圖片我們可以發(fā)現(xiàn)有兩個(gè)問(wèn)題:
其中有兩幅圖片的貓咪眼睛很奇怪,在這些細(xì)節(jié)描繪上還無(wú)法和真人畫(huà)師媲美。輸入的關(guān)鍵詞是“美女”與“布偶貓”,但是生成的“美女”均長(zhǎng)著一張貓臉,從這里反映出AIGC繪畫(huà)會(huì)出現(xiàn)一些空間位置以及數(shù)量上的偏差。產(chǎn)生的原因主要還是來(lái)源于語(yǔ)義理解和處理上的問(wèn)題。與此同時(shí),參考上文中的圖表23,我們可以發(fā)現(xiàn)不同的應(yīng)用平臺(tái),輸入幾乎一致信息點(diǎn)的文本,生成的圖片的質(zhì)量和內(nèi)容差距是巨大的。那么造成以上的這些問(wèn)題和差距的原因在哪里呢?我們依舊可以從AIGC的工作原理上來(lái)分析:
自然語(yǔ)義的理解在處理一些空間關(guān)系上還存在一定的誤差,這也是為什么在空間位置、數(shù)量上存在不精確的問(wèn)題。目前文本生成圖像時(shí),需要用到文本編碼器將文字映射到圖像上。當(dāng)前主流的、訓(xùn)練完善的是來(lái)自與OpenAI的Clip模型,其函數(shù)是開(kāi)源的,但訓(xùn)練的數(shù)據(jù)集是封閉的。AIGC需要大量的良好畫(huà)質(zhì)的文本-圖片對(duì)才能訓(xùn)練到Clip這樣的程度。從Clip本身公開(kāi)的信息來(lái)看,它使用了超4億個(gè)文本-圖片對(duì)來(lái)完成訓(xùn)練,這些都是基于英文的。那么存在以下幾個(gè)問(wèn)題:1、億級(jí)別的高質(zhì)量的文本-圖片對(duì)在于其他的語(yǔ)言上獲得的難度大幅提高,這也是為什么目前大多除英語(yǔ)外的其他語(yǔ)言的AIGC都是需要在整個(gè)流程前增加一步翻譯。這一步不但涉及語(yǔ)義理解,還包含了文化、語(yǔ)言習(xí)慣等潛在的因素,很難被精確翻譯,對(duì)于翻譯模型的挑戰(zhàn)很大。2、Clip的模式很難復(fù)刻,即使運(yùn)用Clip開(kāi)源的函數(shù),基于不同的數(shù)據(jù)庫(kù)訓(xùn)練出的結(jié)果不同。據(jù)我們了解,海外有團(tuán)隊(duì)運(yùn)用了20億的文本-圖片對(duì)才接近復(fù)刻了Clip;
運(yùn)用的AIGC生成算法不同也會(huì)導(dǎo)致產(chǎn)生的內(nèi)容的差
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 涉外委托采購(gòu)合同協(xié)議
- 系統(tǒng)集成弱電合同協(xié)議
- 清包工制作合同協(xié)議
- 混凝土礦粉銷售合同協(xié)議
- 空調(diào)排風(fēng)口銷售合同協(xié)議
- 米廠稻殼包銷合同協(xié)議
- 混凝土員工合同協(xié)議
- 演員個(gè)人演出合同協(xié)議
- 消防通風(fēng)安裝合同協(xié)議
- 游戲公司勞動(dòng)合同協(xié)議
- 結(jié)直腸腺瘤中西醫(yī)結(jié)合防治指南-公示稿
- 2024秋期國(guó)家開(kāi)放大學(xué)《可編程控制器應(yīng)用實(shí)訓(xùn)》一平臺(tái)在線形考(形成任務(wù)4)試題及答案
- 買賣合同法律知識(shí)及風(fēng)險(xiǎn)防范培訓(xùn)課件
- 腦出血患者術(shù)后護(hù)理論文
- 9.2嚴(yán)格執(zhí)法 (課件+視頻)(部編版)
- 《運(yùn)輸方式和交通布局與區(qū)域發(fā)展的關(guān)系》
- 建筑電氣武校剛課后參考答案
- 廣東省2024年高考物理試題(附答案解析)
- 中國(guó)南水北調(diào)集團(tuán)新能源投資有限公司招聘筆試題庫(kù)2024
- 圍手術(shù)期深靜脈血栓預(yù)防的術(shù)中護(hù)理
- 工程項(xiàng)目成本管理的案例分析
評(píng)論
0/150
提交評(píng)論