




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
任務(wù)一
音頻處理創(chuàng)設(shè)情境王華最近接了一個(gè)項(xiàng)目,要將一部分文字內(nèi)容轉(zhuǎn)為語(yǔ)音,然后把部分語(yǔ)音材料整理成文字,他提出一個(gè)充分利用人工智能技術(shù)的方案,利用文字轉(zhuǎn)語(yǔ)音服務(wù)平臺(tái)輕松解決這個(gè)問(wèn)題,借助生成式人工智能整理語(yǔ)音材料成文字稿、文字材料生成語(yǔ)音資料,并且還可以提供多語(yǔ)言配音,創(chuàng)造交互式體驗(yàn)。活動(dòng)目標(biāo)1.了解目前文字生成音頻和音頻轉(zhuǎn)文字的主流平臺(tái)。2.掌握文字生成音頻和音頻轉(zhuǎn)文字的一般操作步驟。3.音頻處理給我們的學(xué)習(xí)、生活和工作帶來(lái)的便利。活動(dòng)準(zhǔn)備初步了解文字生成音頻和音頻轉(zhuǎn)文字時(shí)的常識(shí)和工具:1.了解TTS的原理:TTS是TextToSpeech的縮寫,即“從文本到語(yǔ)音”,是人機(jī)對(duì)話的一部分,讓機(jī)器能夠說(shuō)話。TTS是語(yǔ)音合成應(yīng)用的一種,它將儲(chǔ)存于電腦中的文件,如幫助文件或者網(wǎng)頁(yè),轉(zhuǎn)換成自然語(yǔ)音輸出。主要功能包括文本分析、語(yǔ)音合成、韻律處理。活動(dòng)準(zhǔn)備初步了解文字生成音頻和音頻轉(zhuǎn)文字時(shí)的常識(shí)和工具:2.訊飛智作平臺(tái):訊飛智作是科大訊飛旗下的一款A(yù)IGC內(nèi)容生產(chǎn)平臺(tái),它整合了多項(xiàng)核心技術(shù)成果,在語(yǔ)音處理、人工智能等領(lǐng)域發(fā)揮優(yōu)勢(shì)。例如在智能語(yǔ)音技術(shù)方面,涵蓋了音頻處理、語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音評(píng)測(cè)等一系列核心產(chǎn)品和技術(shù)。從創(chuàng)作功能角度看,它就像是一個(gè)全能的創(chuàng)作助手,在實(shí)際應(yīng)用場(chǎng)景中,訊飛智作也展現(xiàn)出了很強(qiáng)的適應(yīng)性。活動(dòng)準(zhǔn)備初步了解文字生成音頻和音頻轉(zhuǎn)文字時(shí)的常識(shí)和工具:3.TTSMaker:它的核心功能就是將文本轉(zhuǎn)換為語(yǔ)音,我們只需將需要配音的文本輸入到工具中,選擇相應(yīng)的語(yǔ)言和聲音,即可在短時(shí)間內(nèi)生成高質(zhì)量的語(yǔ)音。這大大節(jié)省了用戶的時(shí)間和精力,讓配音變得更加輕松、高效。活動(dòng)準(zhǔn)備初步了解文字生成音頻和音頻轉(zhuǎn)文字時(shí)的常識(shí)和工具:4.海綿音樂(lè):它是一個(gè)利用人工智能技術(shù)的音樂(lè)創(chuàng)作平臺(tái),可以快速生成個(gè)性化的音樂(lè)作品。通過(guò)提供多樣化的音樂(lè)風(fēng)格模板和情感主題,簡(jiǎn)化音樂(lè)創(chuàng)作的復(fù)雜性,即使是沒(méi)有專業(yè)音樂(lè)也能輕松創(chuàng)作出屬于自己的音樂(lè)。活動(dòng)準(zhǔn)備初步了解文字生成音頻和音頻轉(zhuǎn)文字時(shí)的常識(shí)和工具:5.訊飛聽(tīng)見(jiàn):一款由科大訊飛推出的智能語(yǔ)音轉(zhuǎn)文字軟件,它的功能能夠大幅提升用戶在會(huì)議記錄、授課演講、媒體采訪等場(chǎng)景下的工作效率,如實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫、多語(yǔ)種翻譯、邊錄邊拍、懸浮字幕、文本結(jié)果導(dǎo)出等功能。活動(dòng)準(zhǔn)備初步了解文字生成音頻和音頻轉(zhuǎn)文字時(shí)的常識(shí)和工具:5.剪映軟件:我們將在學(xué)習(xí)擬聲這一功能時(shí)用到剪映軟件,它的“聲音克隆”功能是一項(xiàng)創(chuàng)新技術(shù),我們能快速?gòu)?fù)制自己的聲音。通過(guò)錄制5秒鐘的語(yǔ)音,AI模型能夠?qū)W習(xí)并生成與我們音色極為相似的語(yǔ)音內(nèi)容。活動(dòng)展開(kāi)-文本轉(zhuǎn)換音頻參照教材中“活動(dòng)展開(kāi)”,嘗試操作。1.輸入文本,“文本糾錯(cuò)”后試聽(tīng)效果。
掃描觀看粘貼文字稿到文本框活動(dòng)展開(kāi)-文本轉(zhuǎn)換音頻參照教材中“活動(dòng)展開(kāi)”,嘗試操作。1.輸入文本,“文本糾錯(cuò)”后試聽(tīng)效果。
掃描觀看智能糾正錯(cuò)別字界面活動(dòng)展開(kāi)-文本轉(zhuǎn)換音頻參照教材中“活動(dòng)展開(kāi)”,嘗試操作。1.輸入文本,“文本糾錯(cuò)”后試聽(tīng)效果。
掃描觀看試聽(tīng)按鈕多音字選擇讀音界面活動(dòng)展開(kāi)-文本轉(zhuǎn)換音頻參照教材中“活動(dòng)展開(kāi)”,嘗試操作。2.選擇語(yǔ)言、語(yǔ)音包類型和語(yǔ)速
掃描觀看“關(guān)山”角色語(yǔ)音主播選擇界面活動(dòng)展開(kāi)-文本轉(zhuǎn)換音頻參照教材中“活動(dòng)展開(kāi)”,嘗試操作。3.停頓設(shè)置和添加背景音樂(lè)。
掃描觀看配音停頓設(shè)置設(shè)置背景音樂(lè)活動(dòng)展開(kāi)-文本轉(zhuǎn)換音頻參照教材中“活動(dòng)展開(kāi)”,嘗試操作。4.生成音頻文件。修改生成音頻文件名稱為“《桃花源記》語(yǔ)音生成”、設(shè)置生成音頻文件格式為“mp3”。
掃描觀看轉(zhuǎn)換并下載配音文件活動(dòng)展開(kāi)-音頻轉(zhuǎn)換文本參照教材中“活動(dòng)展開(kāi)”,嘗試操作。1.訊飛聽(tīng)見(jiàn)模塊“會(huì)記”功能。打開(kāi)訊飛聽(tīng)見(jiàn)官網(wǎng),選擇“訊飛聽(tīng)見(jiàn)”模塊,下拉選項(xiàng)中選擇電腦自帶麥克風(fēng)。
掃描觀看會(huì)記功能選擇界面語(yǔ)音轉(zhuǎn)文字參數(shù)設(shè)置活動(dòng)展開(kāi)-音頻轉(zhuǎn)換文本參照教材中“活動(dòng)展開(kāi)”,嘗試操作。2.手機(jī)收音電腦端依次點(diǎn)擊“設(shè)置”、“微信收音”,移動(dòng)端掃二維碼,切換到手機(jī)錄音界面,開(kāi)始實(shí)時(shí)語(yǔ)音轉(zhuǎn)換文字。
掃描觀看提示:PC端和移動(dòng)端使用同一個(gè)賬號(hào)登錄。切換到手機(jī)錄音實(shí)時(shí)語(yǔ)音轉(zhuǎn)換文字活動(dòng)展開(kāi)-擬聲參照教材中“活動(dòng)展開(kāi)”,嘗試操作。1.導(dǎo)入音頻文件打開(kāi)剪映軟件,導(dǎo)入音頻文件,將音頻文件拖動(dòng)到音軌上。掃描觀看素材拉進(jìn)音軌導(dǎo)入語(yǔ)音文件活動(dòng)展開(kāi)-擬聲參照教材中“活動(dòng)展開(kāi)”,嘗試操作。2.克隆系統(tǒng)內(nèi)置聲音進(jìn)入音色廣場(chǎng),試聽(tīng)各種角色,滿意后單擊頭像選中。掃描觀看音色廣場(chǎng)選擇音色界面活動(dòng)展開(kāi)-擬聲參照教材中“活動(dòng)展開(kāi)”,嘗試操作。3.導(dǎo)出克隆聲音文件試聽(tīng)得到滿意的效果后,依次點(diǎn)擊“菜單”-“文件”-“導(dǎo)出”設(shè)置格式為mp3,導(dǎo)出音頻文件。導(dǎo)出克隆音頻文件導(dǎo)出文件設(shè)置框掃描觀看拓展提高-文本轉(zhuǎn)換音頻使用“多人配音”在訊飛智作平臺(tái)中輸入師生對(duì)話逐字稿,按住ctrl鍵的同時(shí)選中一個(gè)角色的對(duì)話,點(diǎn)擊“多人配音”選擇配音主播,在“主播界面”采取同樣的方法設(shè)置其他角色對(duì)話。選中角色(老師)對(duì)話
多人配音設(shè)置界面拓展提高-文本轉(zhuǎn)換音頻文檔轉(zhuǎn)音頻訊飛智作平臺(tái)可以將整個(gè)文本文檔轉(zhuǎn)換音頻。單擊右上角“導(dǎo)入文件”按鈕,將文本文檔導(dǎo)入到平臺(tái)。提示:在訊飛智作平臺(tái)中,直接導(dǎo)入大小不超過(guò)20MB、字?jǐn)?shù)不超過(guò)1萬(wàn)字、頁(yè)數(shù)不超過(guò)50頁(yè)的doc、pdf、txt格式文檔。導(dǎo)入文檔界面拓展提高-文本轉(zhuǎn)換音頻文檔轉(zhuǎn)音頻導(dǎo)入文本后,平臺(tái)會(huì)根據(jù)文件內(nèi)容智能排版,也可以根據(jù)需要手動(dòng)編輯調(diào)整。還可以切換到“我的音樂(lè)”選項(xiàng)卡上傳本地背景音樂(lè)。自動(dòng)排版界面導(dǎo)入背景音樂(lè)界面拓展提高-音頻轉(zhuǎn)換文本利用電腦端實(shí)現(xiàn)離線語(yǔ)音轉(zhuǎn)文字打開(kāi)訊飛聽(tīng)見(jiàn)官網(wǎng),選擇“訊飛聽(tīng)見(jiàn)”模塊,添加錄音文件,設(shè)置音頻語(yǔ)音種類、出稿類型、專業(yè)領(lǐng)域等選項(xiàng),提交轉(zhuǎn)寫。訊飛聽(tīng)見(jiàn)添加源音頻文件界面音頻轉(zhuǎn)文本參數(shù)設(shè)置界面拓展提高-音頻轉(zhuǎn)換文本利用移動(dòng)端完成語(yǔ)音轉(zhuǎn)文字在訊飛聽(tīng)見(jiàn)APP中導(dǎo)入音頻,設(shè)置語(yǔ)言種類、專業(yè)領(lǐng)域、轉(zhuǎn)文字模式等選項(xiàng),提交轉(zhuǎn)寫任務(wù)。訊飛聽(tīng)見(jiàn)APP首頁(yè)轉(zhuǎn)文字模式轉(zhuǎn)寫參數(shù)設(shè)置拓展提高-音頻轉(zhuǎn)換文本利用移動(dòng)端完成語(yǔ)音轉(zhuǎn)文字上傳音頻的語(yǔ)音選擇“中文(普通話)”、專業(yè)領(lǐng)域選擇“教育”。語(yǔ)音轉(zhuǎn)寫語(yǔ)音轉(zhuǎn)寫結(jié)果拓展提高-擬聲克隆自己的聲音朗讀例句錄制聲音樣本,生成屬于自己的音色。上傳語(yǔ)音文件后,可選擇自己的音色進(jìn)行克隆。提示:錄制時(shí)的語(yǔ)氣和情感也會(huì)被克隆,錄制時(shí)長(zhǎng)在5s以上;你的電腦要配備麥克風(fēng)設(shè)備。克隆自己聲音界面語(yǔ)音克隆拓展提高-擬聲克隆自己的聲音設(shè)置參數(shù):選擇“保留口音版”保存,克隆列表多了生成的音色。將生成的音色應(yīng)用到語(yǔ)音文件。提示:錄制時(shí)的語(yǔ)氣和情感也會(huì)被克隆,錄制時(shí)長(zhǎng)在5s以上;你的電腦要配備麥克風(fēng)設(shè)備。設(shè)置參數(shù)定制音色列表拓展提高-擬聲調(diào)整聲音效果設(shè)置克隆聲音的音量、速度、淡入、淡出、降噪、變調(diào)效果。克隆聲音基礎(chǔ)設(shè)置克隆聲音變速變調(diào)設(shè)置拓展提高-擬聲調(diào)整聲音效果在“聲音效果”選項(xiàng)卡中,“場(chǎng)景音”可選擇不同的背景聲音;“聲音成曲”可以在克隆聲音的基礎(chǔ)上變成音樂(lè),試聽(tīng)后選擇滿意的效果。選擇“場(chǎng)景音”選擇聲音成曲拓展提高-擬聲利用開(kāi)源模型:CosyVoice克隆聲音CosyVoice開(kāi)源多語(yǔ)言大規(guī)模,它是一個(gè)大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,深度融合文本理解和語(yǔ)音生成的一項(xiàng)新型語(yǔ)音合成技術(shù),依托先進(jìn)的大模型技術(shù)進(jìn)行特征提取,從而完成聲音的復(fù)刻,無(wú)需訓(xùn)練過(guò)程,僅需提供時(shí)長(zhǎng)較短的音頻,即可迅速生成高度相似且聽(tīng)感自然的定制聲音。拓展提高-擬聲利用開(kāi)源模型:CosyVoice克隆聲音預(yù)訓(xùn)練音色:輸入文本后,語(yǔ)速調(diào)整為滿意的速度,依次選擇推理模式為“預(yù)訓(xùn)練音色”,預(yù)訓(xùn)練音色為“中文男”。合成音頻試聽(tīng)和下載界面選擇預(yù)訓(xùn)練音色界面提示:嘗試更換訓(xùn)練音色后生成音頻試聽(tīng)效果。音色下拉選項(xiàng)有中文女、中文男、日語(yǔ)男、粵語(yǔ)女、英文女、英文男、韓語(yǔ)女等角色可供選擇。拓展提高-擬聲利用開(kāi)源模型:CosyVoice克隆聲音預(yù)訓(xùn)練音色:輸入文本后,語(yǔ)速調(diào)整為滿意的速度,依次選擇推理模式為“預(yù)訓(xùn)練音色”,預(yù)訓(xùn)練音色為“中文男”。生成推理種子提示:隨機(jī)推理種子的作用類似于一個(gè)初始值,用于初始化生成過(guò)程。通過(guò)設(shè)置不同的種子值,可以生成不同的輸出結(jié)果,我們可以嘗試更換“隨機(jī)推理種子”后可對(duì)比生成的音頻文
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年 邯鄲市永年區(qū)大學(xué)生回村工作選聘考試筆試試卷附答案
- 幼兒園個(gè)人禮儀情感培訓(xùn)
- 寫生石獅子課件
- 腫瘤變大病歷書寫規(guī)范
- 主動(dòng)脈瘤常規(guī)護(hù)理
- 艾滋病并發(fā)肺部感染護(hù)理查房
- 心內(nèi)科疾病防治科普
- 自然拼讀外教課件
- 無(wú)為教育案例分享
- 清收清欠培訓(xùn)
- 2025年山東省高考招生統(tǒng)一考試高考真題化學(xué)試卷(真題+答案)
- 2025至2030年中國(guó)月子中心行業(yè)競(jìng)爭(zhēng)格局分析及市場(chǎng)前景趨勢(shì)報(bào)告
- 2025年山煤國(guó)際招聘筆試沖刺題(帶答案解析)
- 2024-2025學(xué)年七年級(jí)英語(yǔ)下學(xué)期期末模擬試卷(外研版2024)
- 2024-2025學(xué)年初中英語(yǔ)七年級(jí)下冊(cè)期末考試綜合測(cè)試卷及參考答案
- 2024年涼山昭覺(jué)縣委社會(huì)工作部選聘社區(qū)工作者真題
- 2023年全國(guó)二級(jí)建造師《礦業(yè)工程管理與實(shí)務(wù)》真題及詳解
- 醫(yī)院關(guān)鍵崗位管理制度
- 冠心病的規(guī)范化診培訓(xùn)課件
- 未來(lái)中國(guó)檢測(cè)市場(chǎng)發(fā)展趨勢(shì)簡(jiǎn)析(精)
- 2025年福建省糧食行業(yè)職業(yè)技能競(jìng)賽(糧油保管員)備賽試題庫(kù)(含答案)
評(píng)論
0/150
提交評(píng)論