




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
傳媒行業AIGC市場分析
技術助力AIGC發展,長期看大模型+多模態成趨勢
AI由分析轉向創造,22年AIGC產品集中發布
AI技術逐漸實現從分析到創造的迭代。Al(ArtificialIntelligence)即
人工智能,傳統的AI技術被稱為分析式Al(AnalyticalAI),偏向于
分析數據并總結規律,同時將規律運用到其他用途,比如運用AI技
術進行垃圾郵件檢測、向用戶推薦感興趣的短視頻等。但隨著技術的
迭代,AI已經不僅僅局限于分析已有事物,而是開始創造有意義、
具備美感的東西,即完成感知世界到創造世界的變遷,這種新型的技
術被稱為生成式A(GenerativeAl)o從定義上看,AIGC既是一種
內容形態,也是一種內容生成的技術合集,即生成式AI。從狹義上
看,AIGC(AlGeneratedContent)是繼PGC(Professional
GeneratedContent)與UGC(UserGeneratedContent)之后的一
種內容形式,即利用人工智能技術生成的內容。從廣義上看,AIGC
指的是自動化內容生成的技術合集,基于生成算法、訓練數據、芯片
算力,生成包括文本、音樂、圖片、代碼、視頻等多樣化內容。
AIGC起源于20世紀50年代,經過多年發展,在2022年AIGC產
品集中發布,多款產品出圈,引發社會廣泛關注。據中國信通院,
AIGC起源于20世紀50年代,萊杰倫?希勒和倫納德?艾薩克森完成
歷史上第一只由計算機創作的音樂作品《依利亞克組曲》,但受制于
技術水平,截至1990年,AIGC均僅限于小范圍實驗。1990-2010
年是AIGC的沉淀積累階段,AIGC逐漸從實驗向實用轉變,但受限
于算法瓶頸,效果仍有待提升。2010年以來,伴隨著生成算法、預
訓練模型、多模態技術的迭代,AIGC快速發展,2022年多款產品
出圈。
S<1:什么是AIGC
分析式AIAIGC《生成式Al)
懂訓練模型
□詐聯信息識別
生成算法多模態技術
□垃圾郵件檢測Si
□情測外賣時間0
□推薦感興短的視效
□M
2022年8月,Stabi代yAI發布StableD用usion模型,為后續AI繪
圖模型的發展奠定基礎,由Midjourney繪制的《太空歌劇院》在美
國科羅拉多州藝術博覽會上獲得“數字藝術’類別的冠軍,引發社會廣
泛關注。2022年11月OpenAI推出基于GPT-3.5與RLHF
(ReinforcementLearningfromHumanFeedback,人類反饋強化學
習)機制的ChatGPT,推出僅2月日活超1,300萬,據Forbes,2023
年1月OpenAI的估值從2021年的140億美元提升到2023年1月
的290億美元。此外,科技巨頭亦加碼布局AIGC,如微軟表示將自
己的消費者和企業產品中部署OpenAI的模型,宣布將OpenAI語言
模型整合到Bing引擎和Edge瀏覽器中;谷歌在ChatGPT發布后亦
加快AI自研,2023年2月7日正式發布下一代AI對話系統Bard,
此外谷歌還投資ChatGPT的競品Anthropic;國內方面,據百度官網,
2023年2月7日,百度公布了大模型新項目文心一言(ERNIEBot),
據彭博社,百度計劃在2023年3月將最初的版本將內嵌到搜索服務
中。
生成算法、預訓練模型、多模態技術成為AIGC發展的關鍵
從技術上看,生成算法、預訓練模型、多模態技術是AIGC發展的關
鍵。從流程上看,算法接收數據,進行運算并生成預訓練模型,多模
態技術則是將不同模型融合的關鍵。長期看大模型+多模態將成為趨
勢:
#1生成算法持續優化
算法即解決問題的策略和機制,2014年伊恩?古德費洛提出的GAN
(GenrativeAdversarialNetwork,生成對抗網絡)成為最早的AI
生成算法。隨后Diffusion、Transformer^基于流的生成模型
(Flow-basedmodels)、CLIP(ContrastiveLanguageImage
Pre-Training)等深度學習算法相繼被推出,其中DHfusion逐漸代替
GAN成為圖像生成的主流模型,Transformer的推出為預訓練模型奠
定了基礎,CLIP則廣泛應用在多模態技術中。
#2預訓練模型持續完善
2015年以前,小模型一度被認為是行.業發展的方向,但這些小模型
更偏向處理分析性任務,生成能力較弱。2017年谷歌研究院在
《AttentionisAllYouNeed》中提出Transformer算法的概念,而
Transformer能夠有效提取長序列特征,具備較高的計算效率和可擴
展性,大大降低訓練時間。2018年谷歌發布基于Transformer的NLP
(NaturalLanguageProcessing,自然語言處理)預處理模型BERT,
標志著人工智能進入預訓練模型時代。
從流程上看,預訓練模型采用兩階段學習法,即首先在大量的通用數
據上訓練并具備基礎能力,再結合多樣的垂直行業和場景對預訓練模
型進行微調,從而有效提升開發效率。隨著參數規模的擴大,預訓練
模型在語言理解,圖像識別等領域迅速取得突破,所需的計算量也急
劇增長。據紅杉資本,2015-2020年,用于模型訓練的計算量增加了
6個數量級。據騰訊研究院,按照類型分類,預訓練模型包括:1)
NLP(自然語言處理)模型,使得人與計算機能夠用自然語言有效通
信,包括OpenAI的GPT系歹人Facebook的M2M100;2)CV模
型(Computervision,計算機視覺),運用計算機及相關設備對生物
視覺進行模擬,比如微軟的Florence;3)多模態預訓練模型,包含
圖像、文字、視頻等多種形式,如谷歌的Image、StabilityAI的
StableDuffusion等。
?<4:AIGC主要用調修模型杭理
金或應M?盤量**
答就BERT4810億NLP
LaMDANLP
PaLM沿*及*與幺*、?Jt.代g生*5400化NLP
Imagen沿土及修與圖像110億多幔金
Part4*JIM與曲像文板200億S幔鳥
Florence64億CV
Turing-NLG170億NLP
FacebookOPT-175B訃*饅皂1750化NLP
M2M-100100Hiitl.il150億NLP
DeepMindGato多面手的1T鮑體12億多幔3
Gopher通才及3與生成2800化NLP
AJphaCode代馬立成414億NLP
OpenAlGPT3通*及”與文*.按及等1750億NLP
CLIPADALL-E號幔3陵去120億5根金
Codex代嗎生?120億NLP
ChatGPT通*及薪與上*、NLP
StabilityAIStableDiffusion*方及解與配像生*多慢島
關件達Meaatron-TuringNLG播方理解與文*、拉及5300億NLP
#3多模態技術快速發展
多模態技術(MultimodalTechnology)即將圖像、語音、視頻、文
字等多模態融合的機器學習技術,而CLIP(ContrastiveLanguage-
ImagePre-training)的推出成為跨模態應用生成的重要節點。CLIP
在2021年由OpenAI開源推出,能夠將文字和圖像進行關聯.且關聯
特征豐富,后續“CLIP+其他模型”成為跨模態生成領域的較通用的做
法,如DiscoDiffusion便是將CLIP與Diffusion模型進行關聯,用
戶輸入文字指令便能夠生成相關的圖片。在多模態技術的加持下,預
訓練模型已經從早期單一的NLP、CV向多模態、跨模態的方向發展。
AIGC產業鏈基礎層/中間層/應用層,中外差距約3年
從產業鏈結構來看,AIGC主要包括基礎層、中間層和應用層,中外
差距在3年左右。由于技術與投資環境差異,AIGC在我國大多作為
公司的部分業務進行開發,獨立的初創公司數量較少,導致AIGC實
際的場景開發較國外仍有差距。據量子位,中外公司的整體差距在3
年左右,底層技術是核心原因。
#1基礎層
基礎層即預訓練模型,構成了AIGC的基礎。隨著預訓練模型參數的
增加,預訓練所需要的數據量同樣快速提升,帶來較高的成木投入。
據中國信通院與京東探索研究院發布的《人工智能生成內容白皮書
2022》,模型參數量已從最初的千萬級發展到了千億級別,訓練代
價也從數十天增長到幾十萬天(按在單張V100GPU計算)。據北京
智源人工智能研究院,2020年OpenAI發布的NLP模型GPT-3的
參數量約1,750億,訓練數據量達45TB,模型訓練成本近1,200萬
美元。因此該領域的參與者主要是科技巨頭與頭部的研究機構,如
OpenAL谷歌、微軟、Meta,百度等。
#2中間層
中間層即垂直化、場景化、個性化的模型。在預訓練模型的基礎上,
能夠快速生成垂直化的小模型,實現流水線式的開發,降低開發成本,
提升效率。如StableDiffusion開源后多個繪畫模型基于
StableDiffusion開發,二次元繪畫領域包括知名的NovelAL而昆侖
萬維的天工巧繪SkyPaint模型則采用全球第一款多語言
StableD附usion分支模型,兼容StableDiffusion。據騰訊研究院,隨
著大模型+多模態加速成長為通用性技術平臺,模型即服務
(Model-as-a-Service,MaaS)逐漸實現,通過API授權有望助力
AIGC變現。
#3應用層
應用層即面向C端的AIGC應用。從模態上看,應用層包括圖像、
音頻、文本、視頻等,其中圖像領域代表產品包括MidJourney、
DreamStudio等;音頻包括DeepMusic等;文本包括ChatGPT、
Sudowrite等;視頻包括Runway等。從形式上看,應用層包括App、
網頁、小程序、聊天機器人等,將C端用戶與模型聯通,已經逐漸
滲透到生活中的各個領域,如MidJourney搭載在聊天軟件Discord
中推出,ChatGPT則支持網頁直接登錄,國內的如昆侖萬維的天工
巧繪SkyPaint能夠通過微信小程序登錄,滿足用戶的多樣化需求。
S<5:AJGC產業保站構
修訓“B■宣化、埸霞生個性化■更研10文字與成?
抒的AJGCBflg
AIGC顛覆傳統生產模式,掀起全場景內容生產力革命
AIGC從效率、質量、多樣性為內容生產帶來革命
AIGC技術的突破性進展引發內容生產方式變革,內容生產由PGC
(專業制作)和UGC(用戶創作)時代逐漸步入AIGC時代。AIGC
順應了內容行業發展的內在需求,一方面內容消費量增加,急需降低
生產門檻,提升生產效率;另一方面用戶端表達意愿明顯上升,消費
者對內容形態要求更高,內容生成個性化和開放化趨勢明顯。
AIGC通過其強大的生成能力廣泛服務于內容生產的各類場景和內容
生產者,在內容行業的應用場景不斷增加和拓展,將在內容生產中產
生變革性影響。具體來看主要有以下三點:1)自動內容生成,提升
內容生產效率,降低內容生產門檻和內容制作成本。當前大量文本、
圖像、音頻、視頻等內容都可以通過AIGC技術自動生成,高效的智
能創作工具可以輔助藝術、影視、廣告、游戲、編程等創意行業從業
者提升日常內容生產效率。此外,自動內容生成可以降低內容生產門
檻和內容制作成本,例如,借助AI編曲軟件可以自動生成編曲,而
人為創作大概需要7-10年的經驗積累。2)提升內容質量,增加內容
多樣性。AIGC生成的內容可能比普通的人類創建的內容質量更高,
大量數據學習積累的知識可以產生更準確和信息更豐富的內容,谷歌
的Imagen生成的AI繪畫作品效果已經接近中等畫師水平。而且
AIGC可以幫助企業和專業人士創建更多樣化、更有趣的內容,
VQGAN可以生成抽象繪畫作品,不咕剪輯Cooclip內置豐富的貼紙、
音頻、經典“?!彼夭牡?,可以增加視頻本身的玩法與樂趣。3)助力
內容創新,實現個性化內容生成。AIGC將內容創作中的創意和實現
分離,替代創作者的可重復勞動,可以幫助有經驗的創作者捕捉靈感,
創新互動形式,助刀內容創新。例如AICG在設計初期生成大量草圖
可以幫助美術創作者生成更多創作靈感。根據個人用戶的喜好生成個
性化內容,也有利于多種創意落地。
AIGC發展中仍面臨法律、安全、倫理和環境等問題。首先,AIGC
引發了新型版權侵權風險,因版權爭議,國外藝術作品平臺Artstation
上的畫師們掀起了抵制AIGC生成圖像的活動。其次,AIGC濫用容
易引發信息內容安全、內生安全、詐騙違法犯罪行為等安全隱患,詐
騙團隊利用AIGC換臉偽造埃隆?馬斯克的視頻,半年詐騙價值超過2
億人民幣的數字貨幣。再次,算法歧視等倫理問題依然存在,人工智
能大規模替代人類勞動引發爭議。最后,AIGC模型訓練消耗大量算
力,碳排放量巨大,對環境保護造成壓力。
a<6:內容生產方式的b個&A院段
H
i
匕a宓:
文本、音頻和圖像生成等落地相對較快,游戲等方向仍待成熟
細分場景眾多,文本、音頻、圖像領域發展較快?;谀B,我們認
為目前AIGC下游落地場景有文本、音頻、圖像、視頻、游戲、代碼、
3D生成等。較之國外,我國AIGC行業仍處于剛起步階段,體系化
發展等仍待完善。
文本生成:AIGC目前可以較好地完成新聞播報等結構化寫作、推薦
相關內容、幫助潤色等非結構化內容,同時在虛擬男/女友、心理咨
詢等閑聊機器人中應用較為廣泛。劇情續寫、營銷文本等非結構化寫
作與文本交互游戲等應用尚未實現規?;瘧茫磥砘蚩蓪崿F文本生
成的終稿達到人類平均水平甚至專業水平。圖像生成:隨著算法模型
的不斷迭代,AI作畫水平不斷提高。在圖像編輯工具上,去除水印、
提高分辨率、特點濾鏡等已較廣泛應用。根據隨機或按照特點屬性生
成畫作等的創意圖像生成,與根據指定要求生成營銷類海報、模特圖
等的功能性圖像生成發展接近成熟。當前圖像生成水平與專職藝術家、
設計師和攝影師的產品設計作品存在一定差距。
音頻生成:發展較為成熟,消費與企業級的應用正在鋪開。AIGC目
前在語音克隆、生成虛擬人的特定歌聲/播報等的文本生成特定語言、
包含作曲與編曲的樂曲/歌曲生成上得到廣泛應用,代表企業和應用
的有倒映有聲、Deepmusic,網易■有靈智能創作平臺等。AI降噪去
除壓縮和采樣中的噪音仍需改善,AI作曲小冉機械化與人類創作音
樂水平相仿,在未來值得期待。視頻生成:AIGC目前對于刪除特定
主體、生成特效、跟蹤剪輯等的視頻屬性編輯已較廣泛應用,視頻換
臉等的視頻部分剪輯預計不久將規模化應用,對特定片段進行檢測與
合成的視頻自動剪輯發展仍不完善。當前,全自動生成長時間的視頻
作品還不能實現,距離依個人夢想定制電影和劇集還較為遙遠。其他
(游戲/代碼/3D):代碼補全生成來替代程序員重復性勞動的發展較
為成熟,大量應用已落地。游戲中游戲操作策略生成和NPC邏輯及
劇情生成尚需進一步完善,3D生成尚處于早期階段,3D模型、3D
角色制作和3D場景尚未實現規模化應用。3D、游戲、代碼自動生成
更加智能將成為未來的增長方向。
AIGC的商業模式同樣處于持續探索的階段,由按量收費等傳統方式
向SaaS訂閱模式等應用場景更靈活的方式拓展。AIGC讓AI公司為
更多中小型企、業甚至個人提供服務,可規?;亟的驹鲂?,為AI行
業帶來一種全新的可能性和商業模式。
1)按量收費:AI技術傳統應用模式主要以API接口對外開放,以實
際使用量/訓練量計算收費,如OpenAI的GPT3語言模型服務以每
千tokens定價(OpenAI使用的字符計算單位,一千tokens約等于
750個單詞),Ada/Babbage/Curie/Davinci四種模型的能力和產出
速度不同,單價也有所不同,分別為$0.0004/0.0005/0.0020/0.0200
每千tokens。圖像生成方面,DALL'E模型同樣按次收費,不同尺寸
的圖像收費不同,生成一張256x256/512x512/1024x1024像素的圖
片,單次收費$0016/0.018/0.020。
2)SaaS模式:AIGC為B端及C端用戶提供了會員SaaS收費的
模式,降低了傳統AI公司的客戶服務規?;碾y度。據OpenAI官
網,2023年OpenAI推出付費版本的ChatGPTPIus,起價為每月20
美元,提供更快的響應速度,以及新功能和更新的有限使用權。美國
AIGC公司Jasper主打AI生成文案服務,以類SaaS服務收費,2021
年成立當年營收達4,500萬美元,以其Starter模式為例,基礎收費
是24美元/月,可以使用不超過2萬字;最高332美元/月,可以使
用32萬字。
3)其他:通過降本增效來增利、定制化服務付費、個性化產品銷售
等。市場積極探索其他場景商業化:在廣告營銷、影視、音樂、游戲、
藝術品等領域AIGC有望繼續拓展更多樣化的商業化形式。藍色光標
推出的“銷博特”發布AIGC“創策圖文'營銷套件,該套件的定制版服務
將銷博特營銷能力服務部署為企業自有云服務,并根據企?業個性化需
求進行二次開發,構建企業內部營銷創意基礎設施平臺,為企業提供
專屬營銷策劃和創意內容。AIGC的商業模式同樣處于持續探索的階
段,由按量收費等傳統方式向SaaS訂閱模式等應用場景更靈活的方
式拓展。AIGC讓AI公司為更多中小型企業甚至個人提供服務,可規
模化地降本增效,為AI行業帶來一種全新的可能性和商業模式。
AIGC多場景快速落地,文本/圖像關注度較高
文本:ChatGPT引領熱潮,大廠加碼布局交互式文本
據量子位,AI文本生成分為交互式與非交互式。非交互式包括結構
化寫作,非結構化寫作和輔助性寫作,其中結構化寫作指基于數據或
規范格式,在特定情況下生成的文本,如新聞、簡訊等;非結構化寫
作以創作型文本生成為主,具備更高的開放度。作為AIGC最早發展
的技術,AI文本生成已經在新聞報道、商業營銷、客服機器人等領
域廣泛落地。2022年11月30口,OpenAI推出的智能聊天工具
ChatGPT引入RLHF機制,降低訓練成本且效果優化,不僅能夠對
問題作出回答,還能完成短文和詩歌創作、代碼寫作、數學和邏輯運
算等任務,據Similarweb,ChatGPT推出僅2月平均日活超1,300
萬,引發社會廣泛關注??萍季揞^亦加碼布局交互式文本,微軟在
2023年1月追加投資OpenAI,未來還計劃將ChatGPT整合到旗下
的搜索引擎Bing中;谷歌通過內部研發與投資ChatGPT的競品
Anthropic來應對挑戰,23年2月6日公布了與ChatGPT類似的對
話服務Bard;據彭博社,百度計劃將ChatGPT類似程序嵌入搜索服
務中。
■AS:
辦4會■Mt,向*??1
—contMnoteVftCf
Aiat??十4。去?筌不以人久????角
XaftormgM-AAM40KSA.S*“人??耳74574?于
4.444.刁?的4鳥?。。邸?,?*4?
AulomaMins9ht94*WordSmflh
Narrabv*Seme*4*Oufl
Phraee94*PhrmeeScore■逢一子彳伶一???*?萬角8
Pmado4*Pmado
AX*a-1-<M?APP.已人”4,獨,
4*Oramalron一盤Af¥,。望?????,!>4??UI.,?畀2?畔?
tMAlCA17K-b*2n.Witt
,<f*q?|幺字內*?寫為?*俊H
4*
,“人AIMAXA.?MAA?n.
??RM人"冷件“?久?(?¥”黃??
AI1T,¥伸角S3?片?工■
—▲——
4*WOOBH&tUMOA?|?.?圖,八。匕
SuaowntB4*SudowmeIHAtBKa.?0?????t??
OpenAI4*ChatGPT人Xlrd?氏*”人.■件.0.Ct.?語.代
BardUMDA<?.舄
v<2rflH2023434?^<<?<<19
UMudt4*AlOun^^onHRTGPT^<?.久”?戶?入土救44st字?*4*.
#1交互式文本
在交互式文本當中,最近熱度較高的ChatGPT是代表性應用,展現
出較強的智能水平。ChatGPT是OpenAI在2022年11月30日推
出的人工智能聊天工具,其不僅能夠模仿人類的風格作出問題回答,
還能完成短文和詩歌創作、代碼寫作、數學和邏輯運算等任務。據騰
訊研究院,ChatGPT目前可以駕馭各種風格和文體,能夠做到回答
后續問題、承認錯誤、質疑不正確的前提和拒絕不適當的請求等。
ChatGPT的內容輸出質量、內容覆蓋維度,已經可以直面“搜索引擎”
與“問答社區”。據CNBC,ChatGPT通過了Google3級工程師的編
碼面試,據NBCNews,沃頓商學院教授ChristianTerwiesch發現
ChatGPT能夠以B-到B的成績通過該校MBA核心課程運營管理的
期末考試,展現出較強的智能水平。
ChatGPT的出現迅速引起廣泛關注,僅推出2月平均日活超1,300
萬,成為一款現象級的產品。ChatGPT用戶數在5天內突破了100
萬,據Similarweb,2023年1月每天平均有1,300萬獨立訪客使用
ChatGPT,超12月的2倍,而這距離ChatGPT的推出僅2個月。
ChatGPT強大的性能引發了社會的廣泛關注,特斯拉CEO馬斯克在
Twiter上表示“許多人已經陷入了ChatGPT的瘋狂循環中”,“我們離
強大到危險的AI不遠r';2023年2月,微軟創始人比爾蓋茨接受
Forbes采訪時表示'Al將成為2023年最熱門的話題,ChatGPT這種
人工智能技術出現的意義不亞于互聯網和PC的誕生:ChatGPT引
入RLHF機制,通過引入人類反饋,持續優化模型效果。據OpenAI
官網,ChatGPT的模型在GPT-3.5的基礎上引入了RLHF
(ReinforcementLearningfromHumanFeedback,人類反饋強化學
習)機制,這一模式增強了人類對于模型輸出結果的調整,對結果進
行更具理解性的排序,并提升訓練效率,加速模型收斂。
圖表10:歷代GPT模型參數對比
GPT-1GPT-2GPT-3ChatGPT
發布時間2018年6月2019年2月2020年5月2022年11月
參數量1.17億15億1,750億
預訓練數據量約5GB40G45TB
ChatGPT再獲微軟投資,合作持續加深,未來將集成至Bing搜索引
擎與Edge瀏覽器中。據路透社,OpenAI在2019年獲得微軟10億
美元的投資,2021年微軟對OpenAI追加了投資。據微軟官網,微
軟在2023年1月表示,作為兩家公司合作的第三階段,微軟將加大
對supercomputingsystems的投資以支持OpenAI的發展。此外微
軟未來會把自己的消費者和企業產品中部署OpenAI的模型,并為客
戶引入基于OpenAI技術的體驗,將OpenAI的技術構建到GitHub
Copilot和MicrosoftDesigner等,同時微軟仍然為OpenAI的獨家云
提供商。從具體的落地層面看,2023年1月微軟CEO薩提亞?納德
拉表示微軟旗下的Azure云服務即將整合ChatGPT技術,2023年2
月,微軟旗下的Teams推出嵌入ChatGPT的高級服務,同時微軟
宣布將OpenAI的語言模型整合到Bing搜索引擎和Edge瀏覽器中。
據Theinformation,截至2023年1月,OpenAI估值達290億美元。
ChatGPT在商業化路徑上持續探索,推出付費版本ChatGPTPIuSo
OpenAI的CEOSamAltman在Twitter上表示,ChatGPT平均一次
聊天成本在個位數美分,除了API外,公司正在探索更多的商業化變
現模式,而ChatGPTPIus便是其中之一。據OpenAI官網,2023年
OpenAI推出付費版木的ChatGPTPIus,起價為每月20美元,目前
只對美國的用戶開放。據OpenAI官網,ChatGPTPIus即使在高峰
時段也可以訪問,有更快的響應,可以優先使用新功能和改進。
谷歌通過內部研發與投資應對ChatGPT或帶來的顛覆性挑戰。據
Insider,2022年12月,谷歌為ChatGPT帶來的威脅發布了“紅色警
報”,著手進行緊急應對。應對措施方面,谷歌一方面加快內部研發,
據谷歌官網,美國時間2023年2月6日,谷歌發布了與ChatGPT
類似的對話服務Bard,目前Bard向測試人員開放,未來幾周將持續
向公眾開放該服務,Bard基于谷歌的LaMDA模型(LanguageModel
forDialogueApplications,用于對話場景的語言模型),能夠利用網
絡上的信息提供最新的、高質量的回答。此外,據Thelndependent,
谷歌或將在2023年通過子公司DeepMind推出聊天機器人Sparrow,
可通過谷歌搜索引用特定的信息源,準確性更強。谷歌也在通過投資
持續布局相關領域。據金融時報,2023年2月,谷歌投資AIGC初
創公司Anthropic超3億美元,獲得了約10%股份。據Anthropic官
網,谷歌已經與Anthroic簽署了一份大型云計算合同,Anthropic從
谷歌云購買計算資源,谷歌提供AI模型算力。Anthropic在2021年
由前OpenAI研究副總裁DarioAmodei建立,核心產品是與ChatGPT
類似的聊天機器人Claude。
國內大廠對于ChatGPT的發展持樂觀態度,百度將集成文心一言至
搜索引擎。騰訊研究院在2023年1月發布《AIGC趨勢報告2023》,
對于ChatGPT的發展持樂觀態度,指出AIGC有望作為數據與內容
的強大生產引擎,升級甚至重塑內容工具,申請的“人機對話方法、
裝置、設備及計算機可讀存儲介質”專利可實現人機順暢溝通;京東
集團副總裁何曉冬表示京東會不斷結合ChatGPT的方法和技術點,
融入到產品服務中推動人工智能的產業落地;據百度官網,2023年
2月7日,百度公布了大模型新項目文心一言(ERNIEBot),據彭
博社,百度計劃在2023年3月將最初的版本將內嵌到搜索服務中;
阿里巴巴達摩院申請了“人機對話及預訓練語言模型訓練方法、系統
及電子設備”的專利,積極布局AIGC。
圖表‘QiAnthropic宣布使用谷歌云訓練模型
Anthiopic9AnthropicA]?Feb4???
We,reexcitedtouseGoogleCloudtotrainourAlsystems,including
Claude!/news/dnnourKem
4ThomasKurianO「TfwiasOtIKFvb4
Today'sannouncementwith9AnthfopicAIisanothergreatexample
oftheecosystemofAlstartupsleveragingGoogleCloud'sreliableand
openInfrastructuretobuildtheirbusinesses.goo.gle/3JiAWem
GogleCloudANTHROPXC
#2非交互式文本
結構化寫作已經在新聞寫作、公司財報、客服類聊天問答等場景廣泛
應用。國外方面,代表性的垂直公司Automatedlnsights成立于2007
年,旗下的Wordsmith是一個自然語言生成平臺,能夠借助NLP技
術將數據轉化成描述性的語言,據公司官網,目前Automatedlnsights
已經在新聞寫作中具有較廣泛的應用,下游的客戶包括雅虎、美聯社
等主流媒體。國內方面,小冰公司、騰訊、百度、字節、瀾舟科技等
公司均有布局。瀾舟科技成立于2021年,主要產品是基于“孟子輕量
化預訓練模型”打造的一系列SaaS功能引擎,被廣泛應用于包括搜
索、生成、翻譯、對話等領域。字節推出的Xiaomingbot是新聞寫作
機器人,該機器人在里約奧運會上,共撰寫了457篇關于羽毛球、
乒乓球、網球的消息簡訊和賽事報道。整體來看,目前結構化寫作已
具備較成熟的應用,長期來看,NarrativeScience創始人預測到2030
年90%以上的新聞將有AI寫作完成。
非結構化寫作開放度和技術要求更高,主要運用在營銷和劇情寫作領
域。據量子位,非結溝化寫作主要運用在劇情寫作、營銷文本等領域,
開放度和自由度更高,對于生成技術亦有更高的要求,而目前長篇文
字在內部邏輯上仍然有較明顯的問題,暫不適合直接使用,預計未來
的4-5年或取得一定的突破。國外方面,代表性的公司包括谷歌、
Anyword、Pencil、Copy.ai、Jasper等,其中Jasper成立于2021
年,基于GPT-3訓練模型,通過AI技術幫助企業完成社交媒體、廣
告營銷、電子郵件等多種內容,2022年10月,Jasper宣布獲得1.25
億美元的A輪融資,估值達15億美元;谷歌的AI劇本寫作模型
Dramatron則能夠自動產生人物、位置、情節的描述并生成對話.國
內代表性公司為中文在線、彩云小夢等,在彩云小夢App中創作頁
面輸入一段文字,便能夠生成三條不同的故事走向,用戶可以點擊選
擇繼續或者讓彩云小夢重新續寫,從而讓故事走向更加符合用戶的設
定。中文在線的AI文字創作功能已在17K小說上線,作者在使用該
功能時,通過針對不同的描寫場景填寫關鍵詞和輔助短語,即可生成
對應的文字內容描寫為作品使用。
圖像:預訓練模型迭代升級,AI圖像生成迎機遇
據量子位,AIGC圖像包括文字生成圖像、圖像屬性編輯、圖像部分
編輯與圖像端到端生成,其中由文字到圖像的跨模態生成成為重點探
索方向。從底層技術上看,Diffusion逐漸取代GAN成為圖像生成的
主流模型,助推了AIGC圖像的發展。2022年8月,由Midjourney
生成的《太空歌劇院》出圈,引發AI圖像生成的熱潮;2022年8月,
StabilityAl推出StableDiffusion模型,成為Al圖像生成的里程碑,
為后續圖像模型的更迭打下基礎。此外,OpenAI、谷歌在圖像模型
上亦持續迭代;百度文心?一格則支持中國風AI創作。據6pen,未
來5年全球10-30%的圖像有望由AI生成或輔助生成,AI圖像領域
展現出較大的潛力°
??
MdJounwyUb4*MejoumayDttcord紇"“人,?人■—(Prompt*)WTA1
角幺*4假?K
w<?M如"?itERN€-ViLG20.OltlHNK.?*.
SteMtyAI4*StoMOmiMntila筌用”野,人內*?夕.做其篇?****1*0★*舄?量立?0?AU
川?埠?GtHub上Q等
OpenAl4*DAU€23S:上餐■女4華國
”包.國.HHXttRV.KK<4?^t<C:
4*imagenMMtXe.fem^n
AAexvy4*Pnwi>?八金*■■12憶■戶4500裊”久叁.*MPnsme0Al?<!<??.1**
4*R>wNeRF<*ftW2D?M>A3O<t#fV9AA
??4■Al纖或?6?tdtAttMC.A?H<.S?iX?|.■?!<<M入SJ戶也“工霰
??x?.定
冷?CyctoGAN??#一4?片,?,§-4?*?■內,?修■子■角
Mataphywc.4*MeUphytc立恰?.??“?!(
萬??APPI.*AI幡改?????a"人才“*!<?<aax
DMptMP*4*OMpMieLHAIM*
MxeefM內工■?做紂本?匕&?*X<t,i4僦討,??41^HCftt<8000a4?ttH
?H41tM?Al.■討f6?侵?易.一?久文或1M*?海
公蜂CtwvwraPamtor統?口”■今■■■<■■?人????
AdbfMtecBd4*Adbreeder
RoyudAl4*RoMbud.
VancaAl4*VanaPonretas>內米?4,??
早期AIGC圖像主要基于GAN模型,但生成效果欠佳。GAN模型主
要由生成器(Generator)和判別器(Discriminator)兩部分組成,
生成器負責模擬出與真實訓練樣本類似的假數據,并將假數據混入原
始數據交由判別器區分,兩個模型相互博弈,直到生成器的假數據能
夠以假亂真。早期的AIGC圖像主要基于GAN模型生產,但是GAN
存在訓練難以收斂、模型坍塌、梯度消失等問題,造成訓練結果冗余、
圖像生成質量差。
Diffusion模型逐漸取代GAN成為主流模型,推動圖像生成技術的發
展。D訐fussion受熱力學模型啟發,通過增加高斯噪聲破壞訓練數據,
然后通過反轉噪聲來恢復學習的數據,經過訓練的模型便能夠應用去
噪方法來生成干凈的數據。Diffussion相對于GAN具有更靈活的模
型框架和精確的對數似然,所需數據更少,但圖像生成效果較更佳,
目前逐漸取代GAN成為新一代圖像生成的主流模型。
#1文字生成圖像
由Midjoumey生成的《太空歌劇院》出圈,引發社會廣泛討論。
Midjourney是一款搭載在Discord上的聊天機器人,玩家只需要@機
器人并輸入相關的提示詞(Prompts)即可在1分鐘以內生成4張圖
片。憑借著極低的上手門檻和Discord社區加持,截至2023年2月
4日,Discord數據顯示Midjourney在Discord約有980萬成員。2022
年8月,由Midjourney生成的《太空歌劇院》在美國科羅拉多州藝
術博覽會上獲得“數字藝術”類別的冠軍,使得AI繪畫引發了廣泛的關
注,圍繞AI能夠替代藝術創作的討論熱度較高。
StableDiffusion模型成為AI圖像領域的里程碑,Stability估值達10
億美元。2022年8月,StabihtyAI推出StableDiffusion模型,隨著
算法和模型的持續優化,StableDiffusion的運行速度快、消費資源及
內容較少,使用消費級顯卡即可迅速生成高質量的圖像,且該模型完
全免費開源,所有的代碼均在GitHub上公開,因此也為后續整個圖
像模型的更迭打下基礎。據TechCrunch,截至2022年10月,己有
超20萬開發者下載和獲得StableDiffusion的授權,各渠道的累計日
活已經超過[000萬;STStableDiffusion,面向消費者的Al智能
繪圖軟件DreamStudio用戶數超150萬,已生成1.7億張圖片。2022
年10月,StabiltyAI宣布獲得Coatue、LightspeedVenturePartners
和O'ShaughnessyVenturesLLC投資的1.01億美元,估值達10億
美元,躋身獨角獸行業。
困表25:Midjourney搭載在Discord社區
OpenAI持續迭代DALL?E模型,圖片畫質、生成效率均有提升。2021
年1月OpenAI發布模型DALL?E,能夠根據文本描述生成圖像,2022
年4月,OpenAI公布了DALL-E2研發進展。據量子位,從原理上
看,DALL-E2是CLIP與Diffusion模型的結合,其中CLIP將文本嵌
入轉變為圖像嵌入,而圖像嵌入將通過調節擴散(DiffusionDecoder)
生成最終的圖像。DALL-E2與前一代相比圖像質量提升了3倍,
DALL-E2生成圖像畫質為1024x1024,DALL-E畫質為256x256,
且生成的速度更快°此外DALL-E2能夠在更細的顆粒度上實現文本
到圖像的轉化,能夠根據自然語言進行P圖,同時會反饋陰影、紋
理等元素的變化。
谷歌的Imagen在寫實場景表現優秀,Muse圖像生成效率更高。2022
年5月,Google公布了自研的Imagen模型。據量子位,從技術上
看,該模型并未采用CLIP+GAN或CLIP+DHfusion的常規做法,語
言模型采用谷歌的T5-XXL,并僅負責編碼文本特征,圖像生成由一
系列D訐fusion模型構成;從效果上看,Imagen在寫實場景中表現更
加優秀。2023年1月,Google發布了從文本生成圖像的Transformer
模型Muse,與Imagen和DALL?E2等Diffusion模型相比,Muse
由于采用離散標記且需要更少的采樣迭代,生成效率顯著提升,據
GoogleResearch與Dataconomy,在TPUv4芯片上,Muse生成
512x512分辨率的圖像僅需1.3秒,較StableDiffusion1.4的3.7秒
更快。
百度推出國產基礎模型ERNIE-ViLG2.0,文心?一格支持中國風AI
創作。伴隨AI繪圖的火熱,國內也出現了眾
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 如何提高信息系統項目管理師考試中的回答準確性試題及答案
- 西方立法機關的功能與作用試題及答案
- 軟考網絡工程師學習資源分享試題及答案
- 公共政策危機溝通策略研究試題及答案
- 計算機三級軟件測試在政策中的應用試題及答案
- 機電工程的職業發展路徑試題及答案
- 網絡安全態勢感知技術試題及答案
- 網絡工程師全面準備試題及答案
- 前沿公共政策研究熱點試題及答案
- 軟件設計師考試心理調適方法與試題與答案
- 消防水管道改造應急預案
- 2021城鎮燃氣用二甲醚應用技術規程
- 【保安服務】服務承諾
- 07第七講 發展全過程人民民主
- 弱電智能化系統施工方案
- 對外派人員的員工幫助計劃以華為公司為例
- 2020-2021學年浙江省寧波市鎮海區七年級(下)期末數學試卷(附答案詳解)
- GB/T 9162-2001關節軸承推力關節軸承
- GB/T 34560.2-2017結構鋼第2部分:一般用途結構鋼交貨技術條件
- 閱讀繪本《小種子》PPT
- 醫院清潔消毒與滅菌課件
評論
0/150
提交評論