




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
傳媒語言語料庫的
建設與應用
1主要內容一、建設傳媒語言語料庫的目的二、傳媒語言語料庫的結構三、語料的采集與標注四、傳媒語言語料庫的應用五、目前存在的問題2一、建設傳媒語言語料庫的目的語料庫已成為語言研究和自然語言信息處理研究的信息源和知識源,成為一種必要的現代化的研究工具和手段;廣播電視語言對社會語言生活具有深遠的影響;為我院教師、研究生研究廣播電視語言搭建一個平臺,提供語言資源及現代化工具,為教學服務;為所有對傳媒有聲語言、尤其是廣播電視語言有興趣的人員提供研究資源及現代化工具,為社會服務。3二、傳媒語言語料庫的結構傳媒語料庫文本語料庫音視頻語料庫文本生語料庫文本熟語料庫音視頻生語料庫音視頻熟語料庫4生語料庫檢索界面5熟語料庫檢索界面6音視頻語料庫點播系統界面7三、語料的采集與標注語料的采集
文本語料的采集
音視頻語料的采集語料的標注
文本語料的標注
音視頻語料的標注8音視頻采集工作站磁盤陣列語料加工工作站服務器用戶瀏覽查詢終端DVD錄像機數字化工作站轉寫工作站互聯網工作流程9音頻語料的采集和標注語料規模:大約400小時語料內容:以新聞節目為主電視節目:340小時廣播節目:50小時其他:10小時已標注:1小時標注工具:開發了一個面向漢語的語音標注系統10將Tcl的跨平臺性能、Tk卓越的圖形界面、Snack的可視化語音功能整合在一起,在繪制波形、語圖、音高曲線等方面省時省力;標注文件可以和其他語音處理軟件兼容,如PRAAT等;中文界面,實現了中文語音文件的漢字標注。基于Tcl/Tk+Snack開發的語音標注工具界面11基于Tcl/Tk+Snack工具開發的標注工具界面及標注實例漢字層拼音層聲韻層停斷層重音層12采集原則:以節目文本為單位,全面采樣,力求均衡;語料來源:電臺、電視臺網站的節目文本;選樣參數:大陸與港臺、中央與地方、不同的語言樣態不同的受眾群體、不同的內容領域……目前規模:目前已達到5000萬字(不包括篇頭信息)
電視語料4000萬;包括17家電視臺,165個電視欄目;廣播語料1000萬;包括22家電臺,133個廣播欄目;總共有12396個文件。文本語料的采集13文本語料的標注篇頭信息:各種背景信息的標注(元數據)篇體信息:自動分詞詞性信息標注語體信息標注句法信息標注語義關系信息標注語用信息標注篇章關系標注已做正在做14
許多/m游客/n在/p景點/n前/f“/w望票興嘆/v/i/ls”/w。/w游客/n是/v“/w車/n到/v山/n前/f”/w,/w進退兩難/v/i,/w大老遠/a/ky
慕名而來/v/l
,/w如/c不/d進去/v游覽/v,/w實在/d不/d甘心/v,/w而/c要/v了卻/v“/w到此一游/v/l”/w的/u心愿/n,/w一行/n三五/m人/n就/d得/v先/d掏/v幾百/m元/q的/u“/w進門費/n/ls
”/w。/w詞性標注樣本熟語的雙層標注語體信息標注15XWLB040415-001
<P>(DJ_ZJ(O1_SU胡/nr錦濤/nr)(I1主持/v)(O2_OB儀式/n)(I2歡迎/v)(O3_OS_NP(A_LS拉脫維亞/ns)(!總統/n))(I3訪華/v))</P>
XWLB040415-138(YF(O_SU孔/nr泉/nr)(I說/v),/w)(DJ_ZJ
(E1_SJ_NP4月/t13號/t,/w)(O_DS_NP(A1_NU_QP17/m名/q)(A2_LS中國/ns)(!船員/n)(E2_CS_PP在/p印度/ns孟加拉灣/ns海域/n)(E3_YY_PP因/p沉船/v)(I遇險/v)。/w)XWLB040415-005
(DJ_ZJ(E_SJ_FP中拉關系/n正常化/v以來/f,/w)(O_DS_NP(A_LS_NP兩/m國/n)(!關系/n))(E_ZT順利/a)(I發展/v)。/w)
句法、語義關系標注樣本16篇章標注(RST樹圖分析)樣本17目標與特點語音(音節、韻律標注)
文字
詞語(分詞、詞性標注、語體信息、語用信息)
短語(淺層分析、短語結構標注)
句子(句法、語義關系標注)
篇章(篇章關系標注)
多層次一體化18四、傳媒語言語料庫的應用研制語料庫分詞標注系統
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 軟件測試中的質量控制與保證機制試題及答案
- 道路冷補修復材料試題及答案
- 計算機三級考試新趨勢試題及答案
- 嵌入式系統調試技巧考題試題及答案
- 數據庫存儲過程撰寫技巧試題及答案
- 通信設備專業高頻信號處理維修考核試卷
- 四級軟件測試工程師訪問量提升試題及答案
- 基于MySQL的后臺數據庫管理技巧試題及答案
- 嵌入式系統的市場潛力分析試題及答案
- 敏捷實踐下的測試反饋循環試題及答案
- DB32/T 4220-2022消防設施物聯網系統技術規范
- 車位轉讓合同協議書
- 合伙經營貨車輛協議書
- 2025年農村個人果園承包合同
- 湖北省武漢市2025屆高三年級五月模擬訓練試題數學試題及答案(武漢五調)
- 醫師掛證免責協議書
- 2025年數控技術專業畢業考試試題及答案
- 上海市2024年初中語文學業水平考試試卷真題(精校打印)
- 濟南民政離婚協議書
- 車牌租賃協議和抵押合同
- 2025年內蒙古自治區初中學業水平考試數學模擬試題 (一)(含答案)
評論
0/150
提交評論