T-CAPT 010-2024 新聞行業 大規模預訓練模型 語言模型實.用性要求_第1頁
T-CAPT 010-2024 新聞行業 大規模預訓練模型 語言模型實.用性要求_第2頁
T-CAPT 010-2024 新聞行業 大規模預訓練模型 語言模型實.用性要求_第3頁
T-CAPT 010-2024 新聞行業 大規模預訓練模型 語言模型實.用性要求_第4頁
T-CAPT 010-2024 新聞行業 大規模預訓練模型 語言模型實.用性要求_第5頁
已閱讀5頁,還剩28頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240CCSL67CAPTRequirementsforpracticaloflarge-scalepre-trainedlanguagemodelsinnewsIT/CAPT010—2024 2規范性引用文件 3術語和定義 4使用場景要求 4.1概述 4.2媒體文本創作 4.3媒體文本編輯 34.4媒體文本理解 64.5媒體數據增強 75效果要求 5.1專業性要求 5.2可靠性要求 5.3適用性要求 6產品化要求 6.1模型部署的要求 6.2模型數據庫的要求 6.3模型界面的要求 6.4模型產品的數據保護和隱私保護要求 6.5模型的性能和效率要求 6.6模型的可擴展性和可維護性要求 T/CAPT010—2024本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規則》的規定起草。請注意本文件的某些內容可能涉及專利。本文件的發布機構不承擔識別專利的責任。本文件由中國新聞技術工作者聯合會新聞信息標準化分會秘書處和新華通訊社通信技術局聯合提本文件由中國新聞技術工作者聯合會歸口。本文件起草單位:新華通訊社通信技術局、新華社媒體融合生產技術與系統國家重點實驗室(新華融合媒體科技發展(北京)有限公司)、上海算法創新研究院、傳播大腦科技(浙江)股份有限公司、上海交通大學媒傳學院、北京北大方正電子有限公司、大眾報業集團(大眾日報社)、海南廣播電視總臺、北京中科聞歌科技股份有限公司、中國互聯網新聞中心、北京智途云天科技有限公司、中聯超清(北京)科技有限公司、中國傳媒大學、深圳市創意智慧港科技有限責任公司(深圳報業集團技術公司)、福建理工大學。本文件主要起草人:路海燕、王仲豪、鄧海瀅、余鈺、唐波、劉麗芳、張健、陳夢、劉可、鄭偉、賈艾婧、湯代祿、張震、李夢瑤、彭佳柱、王一剛、王建平、丁峰、羅毅、林波、成鵬、王峰、王付生、王熠、熊立波、王慕維、孫心桐、王宇琦、劉瓊、張鵬洲、曹娟、鄭創偉、瞿曦、黃菁、孫天一、付蓉、王志民。T/CAPT010—2024《新聞行業大規模預訓練模型》系列標準由語言模型實用性要求、語言模型評測要求、語言模型安全性要求和研發數據要求、多模態要求5部分組成。分別從實用性、評測、安全性、研發數據和多模態等多個角度出發,構建了一個完整的標準體系,確保大規模預訓練模型在新聞行業中的有效、安全和規范使用。旨在為新聞領域大規模預訓練模型的研發、應用和評估提供全面而系統的指導。《新聞行業大規模預訓練模型語言模型實用性要求》明確了預訓練語言模型在完成新聞任務時的使用場景要求、效果要求以及產品化要求。該標準為模型的實際應用提供了具體指導,確保模型在真實新聞生產過程中具備足夠的實用性和效果。《新聞行業大規模預訓練模型語言模型評測要求》為評估這些預訓練語言模型提供了詳盡的方法和指標。該標準規定了新聞行業預訓練語言模型的評測指標和評測方法要求,并給出了具體的評測示例,以確保評測過程的科學性和規范性。《新聞行業大規模預訓練模型語言模型安全性要求》詳細規定了在內容、數據、合規和技術等環節中所涉及的安全性要求。該標準旨在保障預訓練模型在新聞領域的應用中,能夠遵守相關法律法規,確保數據安全、內容合規。《新聞行業大規模預訓練模型研發數據要求》針對用于訓練、微調和評估預訓練模型的所有數據,提出了技術要求。該標準確保了在預訓練模型研發過程中,數據的質量和規范性,從而提升模型的性能和可靠性。《新聞行業大規模預訓練模型多模態要求》規定了預訓練模型在研發、應用、評測和安全性等方面的要求,特別是在處理多模態數據時的技術標準。該標準的制定,進一步拓展了預訓練模型的應用范圍,使其在多模態新聞內容生成和處理方面也能高效、可靠地發揮作用。5個標準的緊密銜接和相互配合,為新聞行業的大規模預訓練模型構建了一個全面而系統的框架,為新聞領域大規模預訓練模型的開發和應用提供了堅實的基礎和有力的保障。1T/CAPT010—2024新聞行業大規模預訓練模型語言模型實用性要求本文件規定了新聞行業中大規模預訓練模型的語言模型實用性要求。本文件適用于開發人員、使用人員、監管人員進行大規模預訓練模型語言模型在新聞媒體行業中的實用性分析。本文件的使用對象包括報刊、廣播、電視、通訊社、新聞網站、自媒體等新聞媒體內容提供商及媒體應用與研究機構。2規范性引用文件下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T7714信息與文獻參考文獻著錄規則GB/T20093中文新聞信息分類與代碼3術語和定義下列術語和定義適用于本文件。3.1大規模預訓練語言模型large-scalepre-trainedlanguagemodels一種通過在海量文本數據上進行預訓練而構建的自然語言處理模型,通常基于深度學習框架,通過自監督學習從無標注的數據中學習語法、語言和知識等,可通過零樣本(zero-shot)方式進行交互、并可以通過微調(finetune)進行特定任務加強。3.2大規模預訓練模型large-scalepre-trainedmodel一種具有大規模參數和復雜計算結構的超大型機器學習模型(一般超過10億個參數通常由深度神經網絡構建,對海量數據進行預訓練處理。3.3指令/提示詞prompt給預訓練模型提示輸入模型的參數信息,描述問題需求類型,幫助模型更好地理解輸入的意圖,并作出相應的響應。4使用場景要求4.1概述新聞行業中大規模預訓練模型的語言模型實用性要求的使用場景根據新聞業務場景進行設計,分為媒體文本創作、媒體文本編輯、媒體文本理解、媒體數據增強四個類別進行要求。4.2媒體文本創作4.2.1經典新聞創作類新聞行業大規模預訓練語言模型應當能夠適應并處理多種類型的經典新聞創作任務。這些任務包括但不限于簡訊、消息、通訊、特寫、專訪、公文公報、社論、評論員文章、專欄評論、短評和述評。模型需要具備生成不同類型新聞文本的能力,具體要求應符合表1的規定。2T/CAPT010—2024表1經典新聞創作類的不同文體類型要求指令:規定任務長度、時效性、語言風格、核要求:生成通過標題、導語、主體三層報道事情概貌的消息,500~800結果:內容真實,全面準確,具備完整的標題要求:生成運用敘述、描寫、抒情、議論等手法反映新指令:規定核心主題、新聞要素、語言風格,并要求:生成政策文章、領導人講話稿、公報等指令:規定核心主題、寫作主體、格式、語指令:規定核心主題、篇幅、核心觀點、語指令:規定核心主題、觀點立場、語言風格4.2.2新媒體創作類本章節規定了新聞行業大規模預訓練語言模型在新媒體創作類應用中的算法能力要求。新媒體創作不僅要求內容的及時性和準確性,還需注重內容的創新性和互動性,以滿足多樣化的用戶需求和不斷變化的媒體環境。模型對于新媒體創作類任務的具體要求應符合表2的規定。表2新媒體創作類的不同類型要求腳本應緊湊有趣,適合短時間內傳達信息。需具備簡潔的場景文案應實時反映直播內容,具備互動性,能夠引導觀眾生成內容應圖文結合,直觀易懂。需具備簡潔的文字描3T/CAPT010—2024表2新媒體創作類的不同類型要求(續)文案應富有創意,具備互動性。需具備吸引眼球的標題4.3媒體文本編輯4.3.1新聞翻譯新聞翻譯功能要求新聞翻譯功能要求包括:a)多語言處理能力,模型需要支持多種語言的翻譯,包括主流語言和小語種,以滿足全球范圍內的新聞翻譯需求。模型應能夠處理不同語言之間的語法、詞匯和語義差異,確保翻譯的準確性和流暢性;b)模態翻譯技術,能夠處理圖像、音頻轉文本后再翻譯,或者直接處理帶有圖像信息的圖文混排新聞內容;c)領域適應性,新聞翻譯涉及多個領域,如政治、經濟、科技、體育等,模型需要具備跨領域的翻譯能力。通過引入領域特定的語料庫和知識庫,模型可以更好地理解和翻譯特定領域的術語和概念;d)上下文感知能力,新聞文本通常具有復雜的上下文關系,模型需要能夠理解和捕捉這些關系,以進行準確的翻譯。通過引入注意力機制、記憶網絡等技術,模型可以更好地利用上下文信息進行翻譯;e)實時性與效率,新聞翻譯通常需要實時進行,模型需要具備高效的處理速度和低延遲。通過優化模型結構和算法,以及利用并行計算和分布式處理等技術,可以提高模型的翻譯速度和效率;f)數據驅動與可訓練性,模型的設計應便于利用大量新聞翻譯數據進行訓練和優化,以提高翻譯性能。采用合適的模型架構和學習算法,確保模型能夠從數據中學習到有效的翻譯規則和模式;g)可解釋性與可控性,為了增強用戶對翻譯結果的信任度,模型應具備一定程度的可解釋性,能夠解釋翻譯決策的依據。通過引入可視化工具、解釋性算法等技術,可以幫助用戶更好地理解模型的翻譯過程;h)魯棒性與穩定性,新聞文本中可能包含噪聲、錯別字、不規范表達等,模型需要具備一定的魯棒性,能夠檢測并修正翻譯過程中可能出現的錯誤,如語法錯誤、拼寫錯誤等;i)自適應學習與優化,模型應能持續從用戶反饋和新數據中學習,不斷優化翻譯效果,提供友好的用戶界面,允許用戶對翻譯進行反饋和校正,以便模型能夠根據用戶的需求進行調整。新聞翻譯結果的要求新聞翻譯結果的要求包括:a)翻譯準確性:文本內容忠實度,模型應確保翻譯后的新聞內容準確反映原文含義,不遺漏重要信息,不產生誤導性內容;專業術語翻譯,針對新聞報道中的特定領域術語和專有名詞,模型應具備準確識別與翻譯的能力;語法結構正確性,翻譯后文本應遵循目標語言的語法規則,保持句式結構完整且符合新聞寫作規范;b)風格一致性:新聞文體保持,模型需保證翻譯后的新聞稿風格與原文一致,即保持新聞報道應有的客觀、正式和簡潔;語境適應性,能夠根據新聞類別和受眾定位調整翻譯策略,確保譯文符合相應文化和社會背景;4T/CAPT010—2024c)實時性與效率:快速響應,模型應具備快速翻譯大量新聞稿件的能力,滿足新聞發布時效要求。自動更新與優化,具備持續學習和自我優化機制,隨新詞匯、短語的出現及時更新翻譯效果;d)安全與合規性:數據安全,在處理新聞翻譯的過程中,嚴格遵守國家信息安全法律法規,保護新聞數據隱私;內容審查,翻譯輸出應避免不良信息傳播,支持可配置的內容過濾與審查機制;e)可維護性與擴展性:模型更新與升級,允許模型進行定期更新與優化,并能無縫集成到現有新聞翻譯工作流程中;多語言支持,支持多種源語言到多種目標語言的新聞翻譯服務,且易于添加新的語言對。4.3.2新聞改寫新聞行業大規模預訓練語言模型進行新聞改寫應遵循包括但不限于內容補全、結構調整、精煉語言、突出重點、呈現細節、增加引用等對內容進行增加、刪除或調整等操作,具體要求如下:a)內容補全設計提示詞令模型根據原文和指令,補充完善相關信息,為讀者提供更詳盡的細節,使文章更具理解性。指令應明確補全內容方向,如人物背景、事件細節、相關數據等,確保內容與原文風格和情感一致。補全后的內容應緊密連結原文核心信息,提供有價值的補充,增強文章的全面性和吸引力;b)結構調整設計提示詞令模型調整文章結構,提高閱讀體驗。指令應明確結構調整的要求,如總分結構等,并可提供參考文章。生成結果應保持原文連貫性和一致性,使文章更具可讀性和邏輯性,不改變原文信息;c)精煉語言設計提示詞令模型優化語言,通過簡化句子、刪減冗詞、提煉核心信息,使文章簡潔明了。指令應明確優化內容部分。生成結果應保留原文核心信息,簡潔清晰,不影響流暢性和可讀d)突出重點設計提示詞令模型突出關鍵信息,通過強調核心觀點、重要細節,使文章更凝練有力。指令應明確突出重點部分。生成結果應準確傳達原文核心意思,邏輯連貫,吸引讀者注意;e)呈現細節設計提示詞令模型優化細節,通過添加具體細節、豐富描述、提供背景信息,使文章生動具體。指令應明確添加細節部分并提供相關信息。生成結果應豐富文章內容,與原文主題一致,描述具體生動,背景信息全面,信息準確;f)增加引用設計提示詞令模型添加引用,通過引用相關資料、專家觀點、研究成果等,增加文章權威性和可信度。指令應明確引用內容部分并提供相關資料。生成結果應與原文主題相關,引用可靠來源,進一步豐富和深化文章內容。4.3.3風格轉換新聞行業大規模預訓練語言模型進行風格轉換應遵循包括但不限于通俗易懂、專業嚴謹、批判思維、增加網感、理論增強、情感共鳴等要求:a)通俗易懂設計模型使用簡潔明了的語言闡述原內容,降低閱讀難度,使更多讀者輕松理解。明確要求模型避免專業術語和復雜句子,保持核心信息不變。語言簡潔,避免冗長和難懂的術語,保留核心信息,確保普通讀者易懂,不簡化到失去意義;b)專業嚴謹設計模型使用專業精確的語言闡述原內容,提升文章專業性和權威性。明確要求模型使用專業術語和嚴謹結構,保持核心信息不變。語言精確,適當使用專業術語,確保專業讀者準確理解,不過度復雜化;c)批判思維5T/CAPT010—2024設計模型在理解原文后,提出批判性觀點和深度分析,增加文章深度和思辨性,明確指定批判內容和方向。觀點客觀公正,基于充分論據,清晰闡述邏輯,增強文章深度,引發讀者思考和討論,連貫且不矛盾;d)增加網感設計模型使用網絡文化和流行語言,貼近網民閱讀習慣和偏好。明確要求在保持專業性的同時,加入網絡流行語,保持核心信息不變。語言貼近網絡文化,使用流行語和網絡梗,結合網絡熱點,提高吸引力和傳播力,不過度娛樂化,保持專業性;e)理論增強設計模型對原內容進行理論補充,引用權威資料,提升文章專業性和可信度。明確指定補充內容和理論框架。補充理論應與主題相關,深化理解,來源可靠,保持風格和情感一致,連貫且不矛盾,提升專業性和可信度;f)情感共鳴設計模型使用富有情感的語言闡述原內容,通過感人故事、情感描寫等引起共鳴。明確要求使用富有情感的語言,保持核心信息和深層意義不變。語言引起共鳴,情感表達真實自然,避免過度煽情,增強感染力和說服力。4.3.4擴寫擴寫要求包括:a)設計相應提示詞令模型進行符合“在原有內容的基礎上,通過增加信息、細節、描述、背景等,使文章更加豐富和完整,以增強讀者的理解和參與感”要求的“擴寫”工作。擴寫旨在保持原文的風格和情感,同時豐富內容,使之更具吸引力和深度;b)提示詞需要包括但不限于規定擴寫的主題、方向、語言風格、篇幅的要求,并可以提供相關的事實素材;c)“擴寫”類生成結果需要保證就新內容合理性而言,擴寫內容在邏輯上應與原文一致,不引入矛盾或不相關信息;就文章流暢度而言,擴寫后的文章應各部分之間過渡自然,讀者可以輕松跟隨故事的發展;就內容的易讀性而言,添加的內容應能夠加深讀者對新聞事件或相關主題信息的理解,提供足夠的背景信息;就信息的準確性而言,新增內容應準確,不涉及錯誤、臆測或誤導性陳述。4.3.5摘要摘要要求包括:a)設計相應提示詞令模型進行符合“對原文中的關鍵信息和主要內容進行精簡提煉,生成符合以簡潔明了的語言表達,幫助讀者迅速了解文章的核心觀點、事件和重要數據”要求的“摘要”工作。摘要旨在在盡量減少文字量的情況下,保持原文的主旨和邏輯結構;b)提示詞指令需要包括但不限于規定“摘要”的核心主題、篇幅、原文遵從度的要求;c)“摘要”類生成結果需要保證關鍵信息概括度,摘要中應包含了原文中的主要事件、觀點和數據等關鍵信息;就簡潔而言,摘要應用簡明扼要的表達方式,使讀者能在短時間內獲取主要內容;就意義的保持度而言,摘要應保持原文的主題、情感和重要細節,不偏離原文核心;就信息的準確性而言,摘要中提供的信息應準確,不得捏造、省略或曲解。4.3.6潤色潤色要求包括:a)設計相應提示詞令模型進行符合“修飾文章語言、風格、結構,提升文章表達效果和可讀性”要求的“潤色”任務;b)提示詞指令需要包括但不限于規定“潤色”的修改方式、修改方向、語言風格的要求;c)“潤色”類生成結果需要保證語法和拼寫,潤色后文章中應不存在拼寫和語法錯誤;就表達的清晰度而言,修飾后的文章應句子結構清晰,邏輯連貫;就語言風格而言,潤色后的文章應能根據原文的風格,保持適當的新聞、專業或通俗風格;就表達的精練度而言,修飾后的文章應用詞精準,不出現啰嗦或冗長表達。6T/CAPT010—20244.3.7續寫續寫要求包括:a)設計相應提示詞令模型進行符合“在原文的基礎上,進一步延伸事件、主題或觀點,補充額外的信息、分析或展望,以豐富內容并引發讀者的興趣”要求的“續寫”任務。續寫要求與原文保持一致的風格和立場,同時為讀者提供更深入的理解和更全面的信息;b)提示詞指令需要包括但不限于規定“續寫”的核心主題、續寫方向、表達方式、語言風格的要求;c)“續寫”類生成結果需要保證主題的延伸性,續寫內容在邏輯上應與原文一致,延伸了事件或主題的發展;就信息的補充而言,添加后的內容能夠提供額外的背景、數據、專家觀點等與原來的新聞文本相一致的信息;就邏輯的連貫性而言,續寫的內容與原文之間應過渡自然,不引發信息不匹配問題;就信息的準確性而言,新增信息應準確,不引入錯誤或不實陳述。4.3.8核校核校要求包括:a)設計相應提示詞令模型進行符合“對文章進行仔細的校對和檢查,以確保內容的準確性、一致性和規范性”要求的“核校”工作。核校包括拼寫、語法、標點、事實核實、引用規范等方面的檢查,以確保文章在發布之前沒有錯誤,同時滿足行業標準和讀者的期望;b)提示詞指令需要包括但不限于規定“核校”的規則、效果要求;c)“核校”類生成結果需要保證事實核實,核校內容需要經過事實核實,文章中提到的信息應準確無誤;就信息的一致性而言,核校后的文章內部信息在邏輯上保持一致,避免矛盾;就格式的規范度而言,核校后的文章應在排版、標點和引用等方面符合規范標準;就語言使用的正確性而言,核校后的文章中應不存在拼寫、語法錯誤或標點符號使用問題。4.4媒體文本理解4.4.1新聞內容標簽提取新聞內容標簽提取要求包括:a)設計相應提示詞令大模型理解新聞內容,并準確提煉文章的內容標簽,符合以下要求:提取文章的標題、摘要、時間、涉及人物、事件地點、起因、經過和結果,同時提煉文章的情感傾向、領域主題和主要觀點;b)大模型應當可以提取覆蓋新聞文章各方面的內容標簽,包括但不限于:標題、摘要、時間等基本要素,到人物關系、事件細節,以及文章的情感和主題觀點;c)生成的內容標簽提取結果應嚴格基于原文。無論是直接引用的信息還是基于原文理解的總結,都應確保準確性和相關性。提取的情感和觀點應與原文邏輯一致,不產生矛盾或不相關信息。為滿足后續應用需求,這些關鍵信息需以標準化格式(如JSON等)穩定輸出,確保數據的可用性和可讀性。4.4.2新聞要素識別新聞要素識別要求包括:a)設計提示詞令模型完成“從新聞中提取出六要素時間、地點、人物、事件的起因、經過、結果”的工作;b)提示詞指令需要包括但不限于規定模型提取的要素類型、提取范圍的要求,并應提供需要模型理解的新聞文本;c)“新聞要素識別”類結果需要保證識別出的要素完整、真實、準確。4.4.3新聞類型判別新聞類型判別要求包括:a)設計提示詞令模型進行以下三種方式的判別任務:1)體裁:根據新聞的手法、口吻和組織材料結構來判斷新聞體裁,包括消息、通訊、評論、公文公報等;7T/CAPT010—20242)范圍:基于新聞發生的地區與影響范圍進行分類,可分為國際新聞和國內新聞。在此,港澳臺被歸類為國內新聞;3)主題:基于新聞的主題進行分類,應符合GB/T20093的要求。b)提示詞指令需要包括但不限于規定模型判別的任務類型,并應提供需要模型判別的新聞文本;c)“新聞類型判別”類生成結果需要保證從三種分類方式準確判斷新聞類型。4.4.4新聞核心信息提取新聞核心信息提取要求包括:a)設計提示詞令模型完成“從新聞中提取關鍵詞或摘要”的工作:1)關鍵詞:新聞報道中的關鍵性內容,包括實體詞、謂詞、具有關鍵信息的詞語;2)摘要:最關鍵的新聞元素,時間、地點、主要人物/組織、發生的事件等,以完整的句段表述。b)提示詞指令需要包括但不限于規定模型提取信息的任務類型及具體篇幅或個數要求,并應提供需要模型提取信息的新聞文本;c)“新聞核心信息提取”類生成結果需要保證關鍵詞要求選擇具有檢索意義的詞匯,有較特殊意義的詞、詞組、縮略語,不宜拆開。若新聞中有其他類別的詞、短語甚至熟語也能夠提示文章的關鍵內容,也應作為關鍵詞處理。摘要要求言簡意賅,能體現新聞主要內容,字數在100~150字左右。4.4.5新聞傾向判斷新聞傾向判斷要求包括:a)設計提示詞令模型完成“判斷新聞報道中新聞主要人物或機構對事件的感情、態度、意向或立場”的工作。感情傾向可分為正面、負面、中性;b)提示詞指令需要包括但不限于規定模型提取信息的任務類型,并應提供具有較明顯情感傾向的新聞文本;c)“新聞傾向判斷”類生成結果需要保證通過文本可觀測明顯情感傾向,分析準確、合理。4.5媒體數據增強4.5.1媒體創意/熱點推薦媒體創意/熱點推薦包括但不限于熱點推薦、脈絡梳理、主題擴散、內容創作建議、傳播效果預測5個子類別,其中:a)熱點推薦:1)通過檢索當前的社交媒體討論、新聞頭條、搜索引擎趨勢等,收集當前的熱點事件和話題,再設計相應提示詞引導模型分析當前社會、文化、經濟、政治等領域中的流行趨勢和事件,篩選出具有廣泛關注度和討論價值的熱點事件;2)提示詞指令需要明確要求模型根據收集的數據,綜合考慮話題的時效性、社會影響力,以及可能引起的公眾興趣和參與度,推薦當前最受關注的熱點事件;3)“熱點推薦”類生成結果應能夠清晰展示當前最受關注的熱點事件,并提供簡要的背景信息和討論點。b)脈絡梳理:1)通過聯網搜索,獲取與熱點事件相關的新聞報道、社交媒體討論和各類公開權威信息。根據這些信息,設計相應提示詞使模型針對熱點事件清晰地梳理其來龍去脈,包括事件的起因、發展、關鍵的轉折點和影響事件進程的主要因素、當前狀態以及參與推動或影響事件發展的關鍵個人、團體或組織;2)提示詞指令需要明確要求模型獲取數據的范圍和方式,確保數據的準確性和全面性。指導模型如何根據收集的數據進行脈絡梳理的要點,并確定相應的呈現方式,以詳盡、直觀地展示事件的整個發展脈絡;3)“脈絡梳理”類生成結果應全面、直觀地反映出事件從起始到當前狀態的整體發展路徑,以全面地了解事件的全貌,而不僅僅是表面的現象。8T/CAPT010—2024c)主題擴散:1)基于熱點事件和關聯數據,設計相應提示詞引導模型分析和挖掘出與熱點事件緊密相關或由此引申出的其他主題、話題和觀點,并圍繞這些新發現的主題或話題進行廣泛的聯想和擴展,生成一系列與這些主題緊密相關的概念、創新想法、深入探討的問題以及具有啟發性的討論點;2)提示詞指令需要明確要求模型從給定的熱點事件中提煉出核心主題,并根據這些核心主題,從社會、文化、經濟、技術等多個角度和層面進行發散性思考,以產生新的、有趣且深入的觀點和討論點;3)“主題擴散”類生成結果應能夠提供與原始熱點事件主題緊密相關的多元化視角和深入探討,從而豐富內容的層次和深度,提供更加全面、多維度的信息解讀和觀點闡述。d)內容創作建議:1)根據熱點事件及其相關聯的主題,設計相應提示詞引導模型從不同角度和層面提供內容創作的靈感和實用的建議,包括文章標題的構思、內容框架的搭建、觀點的深度闡述,以及精選案例的引用等多個方面,以輔助內容創作者打造出高質量的內容作品;2)提示詞指令需要明確要求模型結合熱點事件和關聯主題,給出具有針對性、新穎性和吸引力的內容創作建議,以提升內容的吸引力和傳播力;3)“內容創作建議”類生成結果應能夠為內容創作者提供具體、實用且具有高度可操作性的建議和靈感,幫助創作出更加引人入勝、觀點鮮明、結構清晰的高質量內容。e)傳播效果預測:1)結合歷史數據和當前媒體報道聲量,設計相應提示詞引導模型分析預測該熱點內容在媒體平臺上的傳播效果,包括可能的閱讀量、轉發量、討論熱度等;2)提示詞指令需要明確要求模型依據已有的相關數據和數據分析方法,對熱點事件及其相關內容的傳播效果進行合理預測,并提供相應的數據支持和解釋,確保預測結果的可解釋性和可信度;3)“傳播效果預測”類生成結果應能夠提供客觀、科學的傳播效果預測和分析,以幫助內容創作者和發布者更好地制定發布和推廣策略,最大限度地提升內容的曝光度和影響力。4.5.2輿情分析輿情分析要求包括:a)新聞媒體文章觀點分析:1)設計相應提示詞令模型生成符合指定級別的新聞媒體傾向的觀點自聚類分析內容;2)提示詞指令需要包括但不限于規定新聞媒體級別的要求,建議新聞媒體級別按照中央媒體、省級媒體、市級媒體和商業媒體進行劃分;3)觀點自聚類分析生成結果需要保證內容上,只分析指定級別的新聞媒體;在觀點上,應當根據文章內容,高度自聚類,建議以三至四個觀點為宜;在分析上,應當言簡意概,突出主要觀點指向;4)支持批量數據的導入分析,數據宜包括新聞媒體級別、新聞媒體名稱、新聞標題、新聞正文,建議支持數量在100條左右。b)自媒體文章內容分析:1)設計相應提示詞令模型生成符合指定平臺的自媒體文章自聚類分析內容;2)提示詞指令需要包括但不限于規定分析文章內容的意見、態度、情感等多維度指標;3)文章自聚類分析生成結果需要保證在內容上,應當與輸入的待分析文章數據一致,不得有虛構、幻想的成分;在結果上,應當準確反映針對具體事件或話題的思想動向,能夠挖掘出對事件或話題的興趣點;4)支持批量數據的導入分析,數據宜包括平臺名稱、自媒體文章標題、自媒體文章正文,建議支持數量在100條左右。c)商業平臺文章評論分析:1)設計相應提示詞令模型生成符合指定平臺的文章評論觀點聚類分析內容;2)提示詞指令需要包括但不限于規定評論觀點的立場屬性為正面、中性和負面;9T/CAPT010—20243)文章評論觀點聚類生成結果需要保證在對待文章中所討論事件的觀點立場判定準確;在評論內容情緒判斷上精準,建議將情緒具體劃分為8類:高興、悲傷、大笑、憤怒、討厭、震驚、擔心和平和;在內容上,應當能夠提煉出每種觀點的核心要素,洞察出評論者普遍心態;4)支持批量數據的導入分析,數據宜包括平臺名稱、文章評論正文,建議支持數量在500條左右。d)歷史事件回溯:1)設計相應提示詞令模型生成符合準確描述的突發事件,回溯出歷史相似事件的詳細內容;2)提示詞指令需要包括但不限于規定事件主體,回溯時間段,事件發生的地域以及事件相似性程度等屬性;3)歷史事件回溯生成結果需要保證在內容上包括簡要的事件概括、發展過程和最后的結果;在順序上,按照時間線依次列出;在相關性上,應當能夠根據指定的事件相關度,增減回溯的歷史事件數量。e)熱搜詞條生成:1)設計相應提示詞令模型生成符合準確描述的突發事件詳情,符合不同平臺熱搜榜特征的熱搜詞條;2)提示詞指令需要包括但不限于規定平臺名稱;3)熱搜詞條生成結果需要保證在內容上能準確反映突發事件核心要素;在形式上,符合指定平臺的熱搜詞條特征;在邏輯上,應當能夠反映社會公眾興趣所在。4.5.3新聞事實核查新聞事實核查是指新聞采編人員通過多種方式,對已公開的新聞、聲明、公告、報告、統計數據及其他公共言論或信息的真實性和準確性進行系統評估的活動。大模型應當能輔助或代替人工完成新聞事實核查的各項任務,包括:信息篩選、資料收集、驗證來源、檢查事實、分析證據、撰寫報告和發布結果。在信息篩選環節,大模型應當可以迅速篩選出具有公共關注度和重要性的新聞主題或內容。在資料收集階段,模型能夠快速查找并整理相關的原始來源、背景信息和佐證資料。在驗證來源和檢查事實過程中,大模型可以高效地核實信息來源的可靠性和權威性,并對涉及的事實和數據進行多方比對和驗證。通過分析證據,模型應當可以綜合多來源證據資料,識別新聞的準確性和真實性,減少人為主觀偏差。大模型應當能夠生成清晰簡明的事實核查報告,準確展示核查過程和結論。模型還應當可以協助發布和傳播核查結果,及時向公眾提供準確的信息,減少虛假信息的傳播和影響。4.5.4優先采用可信數據源可信數據源是指具有權威性、準確性和時效性的數據信息來源。通常包括專業新聞機構、官方媒體、政府數據庫、研究機構或經驗證的第三方數據服務機構。可信數據源應滿足以下條件:——權威性:數據源應來自政府機關、知名新聞機構、國際認可的非營利組織或行業權威研究機——準確性:數據源提供的信息應經過核實,準確無誤,不傳播未經證實的消息或謠言。——及時性:數據源應能提供最新信息,保證內容時效性。——透明性:數據源應公開原始信息來源、采集方法和時間,便于驗證和追溯,如公布調查研究的抽樣方法和樣本數量,指明數據可能存在的偏差與局限。——完整性:數據源提供的信息應全面,不應有故意的遺漏或剪輯,避免誤導讀者。——在新聞語言大模型的數據增強過程中,應遵循以下原則:.優先采用原則:在使用媒體數據進行語言模型訓練或增強時,應優先考慮符合上述標準的數據源,確保模型的準確性和可靠性。.多元化和平衡:應注意數據源的多元化和平衡,避免依賴單一數據源,結合多個高質量數據源,以獲得全面和客觀的數據輸入。.持續監控與評估:對選定的數據源實施持續監控和評估,定期審查其信息的準確性和可靠性,并根據需要更新可信數據源名單。T/CAPT010—2024.數據更新:追蹤可靠數據源提供的最新數據,保證模型接收和提供的信息不過時,能反映最新情況。——建議的可信數據源包括:政府官方數據庫:如國家統計局網站提供的《中國統計年鑒》、地區數據、普查數據,美國食品藥品管理局提供的藥品數據等。——新聞機構:可信的新聞機構數據源參考網信辦互聯網新聞信息稿源。——研究機構:包括高校研究所驗證的報告與文獻、聯合國與世界衛生組織等國際非營利組織、行業內權威研究機構的資料。4.5.5使用外部數據的輸出需要提供引證素材來源在使用外部數據進行內容輸出時,引證素材應增強內容的可靠性、可驗證性和可追溯性。具體要求如下:a)引證來源的靈活性與可控性:靈活選擇不同的外部數據源作為引證素材。若外部數據無相關內容,需拒絕回答,確保引證準確有效;b)數據來源的明確性:所有引文應明確標注引用來源,精確到原文中的具體數據片段,包括作者、出版物名稱、出版日期等,以便快速準確定位參考內容;c)引證數據的適當性:生成內容應與引文緊密相關,具備邏輯關聯,避免無關引文;d)引證內容的完整性:引證內容應完整、可讀,不遺漏關鍵信息或截取部分。需對每個觀點標注支持的引文,確保所有引用信息完整呈現。同一觀點的相關引文應并排標注,便于全面了解信息來源。e)引證來源的可回溯:提供引證信息的元數據,確保可找到原文;引文與原文一致,不進行改寫或修改,保證內容可追溯。f)引證格式的標準性:引文標注應清晰易懂,避免歧義或混淆。采用阿拉伯數字順序夾注法關聯引證來源,方便讀者查閱。元數據標注根據數據類型不同進行區分。參考文獻按引用順序排序,提高邏輯性和可讀性。遵循GB/T7714要求,確保引證格式規范統一。根據指定格式自動生成引用,提升操作便捷性和準確性。表3數據類型和引文所需字段枚舉頁面標題(PageTitle)、網站名稱(WebsiteName)、發布Publication)、URL、訪問日期(AccessDate)、引文段落(Quota作者(Author)、文檔標題(DocumentTitle)、頁碼范圍(Page5效果要求5.1專業性要求專業性要求旨在判斷大模型生成結果的新聞行業專業標準和價值取向體現情況。5.1.1內容專業模型生成的新聞信息內容質量能夠匹配新聞行業中的主要應用場景下的需求,保證模型生成新聞信息的真實、準確。T/CAPT010—20245.1.2結構專業模型生成的新聞信息結構符合新聞專業標準,保證模型生成新聞信息符合新聞體裁規范。5.1.3語言專業大模型生成的新聞信息的語言應符合新聞傳播場景的風格需求,保證模型生成新聞信息的語言風格不含違禁詞、并符合媒體、欄目風格定位。5.1.4準確專業大模型生成的內容應基于事實和數據,避免虛假信息和不實報道;在處理新聞報道時,模型應能夠識別和引用權威的信息源,如官方發布、專業研究報告等;對于歷史事件、數據統計、人物言論等,模型應確保引用信息的時間、地點、背景和上下文的準確無誤。5.1.5可信專業模型生成的新聞內容應具備一定的可信度,模型應能夠解釋其生成新聞內容的過程和依據,從而保證讀者或用戶能夠信賴該內容的真實性和有效性;應定期對模型進行校準和更新,以適應不斷變化的新聞環境和信息準確性的要求;當模型出現錯誤時,應能夠識別錯誤類型并給出合理解釋,以便用戶或開發者進行修正。5.1.6客觀專業模型處理和生成多樣的文本時保持新聞客觀性的能力,以提供更加廣泛的視角和代表性;數據預訓練階段要引入內容過濾機制,避免由于數據選擇、數據清洗等過程中的不當操作而引入歧視,應使用不同類型的可靠數據類信源以保證數據質量;生成內容時應通過算法保證信息來源的多樣性和獨立性,避免偏見和誤導性信息。5.2可靠性要求可靠性要求應保證大模型在新聞行業使用過程中的安全、合法、可信賴,減少、防止大模型的不良輸出或侵權行為。5.2.1安全性大模型生成內容應符合國家法律法規和行業規范,尊重知識產權和個人隱私,遵守道德和公序良俗,符合社會主義核心價值觀,可參考法律法規等相關文件對前述要求作出具體規定和建立負面清單,具體要求可參考《新聞行業大規模預訓練模型語言模型安全性要求》。5.2.2可控性大模型在進行媒體工作時,應當滿足指令提示詞內的限制性、傾向性需求,保證大模型的輸出是可被輸入控制的,且專業性不發生明顯衰減。建立健全的內容審查機制,對大語言模型產出的內容進行人工審核,確保內容的生成結果安全能夠由用戶掌控;對于發現的不適合產出的內容,應及時進行修改或刪除,防止其傳播,并從技術層面判斷根源,盡量杜絕類似內容的再生產;可識別具有不良誘導性內容的提示詞并給出正向提示和拒絕,并額外建立預警機制,讓用戶可知可控。5.2.3可解釋性大模型在進行媒體工作時,應能夠清楚地說明其在新聞行業中的工作原理和邏輯推理過程,以便用戶進行核查檢驗,從而提高大模型的可信度。5.2.4保護數據隱私大模型在預訓練集和實際應用中均應遵循、符合對個人隱私數據保護和機構內部或敏感數據保護的相關要求。對于處于不同國家和地區的具體情況,應遵照并符合當地相關法律法規的要求;對于涉及個人隱私或個人隱私數據的新聞報道或輸出,應遵循個人隱私數據保護的要求,對個人隱私數據進行匿名處理或模糊化處理,包括但不限于:姓名、身份證號、家庭住址、通訊地址、電話號碼、DNA數據、銀T/CAPT010—2024行賬號、個人病歷、照片、視頻等。建立中央監管系統,通過人力和各種人工智能檢測機制的輔助,發現和記錄隱私泄露或違規使用的行為。5.2.5保證數據可信加強對新聞內容的真實性審核,如引入專業的新聞編輯和審核團隊進行把關,確保其真實性和準確性。同時,也可以借助自然語言處理等技術,對新聞內容進行自動化分析和驗證,確保不產出虛假新聞或誤導性信息,對于未經證實的信息,應明確標注其未經驗證,避免誤導讀者;建立可信度評級體系,度量輸出內容的可信度,供讀者判斷;提供用戶反饋渠道,鼓勵用戶對不適宜及真實性存疑的內容進行舉報和提示;對用戶反饋的內容進行快速響應和處理,必要時進行公開澄清或道歉。5.2.6尊重數據版權尊重知識產權,嚴格遵守《中華人民共和國著作權法》,未經著作權人許可,大模型不得以復制、通過信息網絡向公眾傳播其作品等形式侵害著作權人權利;建立版權信息的查詢功能:訓練過程中不僅僅要學習數據本身,還需要將數據的來源以及產權信息送入;對于引用或轉載的內容,應明確標注來源,并確保符合版權法規定的合理使用范圍;使用開源數據集時,應取得開源授權協議。5.3適用性要求適用性要求大模型應適應新聞行業的領域多樣性和用戶需求多樣化,反映大模型在新聞行業中的實際效果和用戶體驗。5.3.1靈活適用大模型在進行不同領域的媒體工作時,應當對于差異性領域的新聞需求、多樣性的新聞素材輸入,均能給出符合領域專業性的回答。5.3.2兼容適用大模型在進行媒體工作時,對于同樣需求、不同風格描述語言的提示詞輸入,應當都能給出符合需求的回答。生成的內容在模型內部需要保持一致,不包含自相矛盾的信息,模型應保持持續穩定的性能,不因數據量增大或計算資源變化而影響生成速度和質量。5.3.3創新適用大模型在媒體行業中的應用也應當顯示自身的創新能力和價值貢獻,尤其是對于開放性生成任務,如用戶有需要,則大模型應有創新性或出彩性的生成結果,如生成多樣性、內容新穎性等。6產品化要求6.1模型部署的要求6.1.1云服務的要求云服務需要保證服務的穩定性。大模型的云服務應具備高可用性架構,保證7x24小時可靠,或根據使用單位工作時間具體確定,同時確保系統能夠在高并發訪問情況下依然保持穩定運行,避免因服務中斷導致的新聞事故。此外,云服務需要具備良好的擴展性,以應對新聞行業中突發事件和重大新聞報道期間的流量高峰。服務商還應提供全天候技術支持和快速響應機制,及時解決用戶在使用過程中遇到的問題,確保新聞行業大規模預訓練語言模型的部署和運行過程平穩順利。6.1.2私有化服務的要求能私有化部署的,要保證部署方案的可用性和推理效率。私有化部署需要確保在不同的硬件環境下都能夠穩定運行,并且具備良好的可擴展性和靈活性,以適應新聞機構不同規模和需求的變化。在部署過程中,需要考慮數據安全和隱私保護,確保新聞數據不會在傳輸和存儲過程中泄露。此外,私有化部署的模型應具備高效的推理能力,能夠快速響應用戶的查詢和請求,確保新聞內容的實時性和準確性,為新聞工作者提供高效的工具支持。T/CAPT010—20246.2模型數據庫的要求6.2.1數據庫的上游數據可靠性新聞行業要求事實,因此新聞行業大模型所采用的數據庫應當具備可靠的上游數據來源。具體而言,數據庫中的數據應當來自權威、可信的新聞機構和信息源,經過嚴格的驗證和篩選,以確保數據的真實性和可靠性。此外,數據庫還應保持實時更新,及時收錄最新的新聞事件和動態,確保模型生成的內容具有時效性和準確性。對數據庫中的數據進行定期審核和清洗,剔除過時、錯誤或不可靠的信息,也是確保數據質量的重要措施

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論