中文新聞信息結構化標注規范_第1頁
中文新聞信息結構化標注規范_第2頁
中文新聞信息結構化標注規范_第3頁
中文新聞信息結構化標注規范_第4頁
中文新聞信息結構化標注規范_第5頁
已閱讀5頁,還剩4頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240

CCSL60

CAPT

團體標準

T/CAPT003—2021

中文新聞信息結構化標注規范

全國團體標準信息平臺

2021-10-19發布2021-10-20實施

中國新聞技術工作者聯合會發布

T/CAPT003—2021

中文新聞信息結構化標注規范

1范圍

本文件規定了中文新聞信息結構化標注的要求、標注規則和方法。

本文件適用于中文新聞領域信息內容的標注,服務于新聞信息資產的分析挖掘、知識發現和再利用,

為多維度檢索、組成特定專題、關系圖譜等積累數據基礎,為新聞信息內容的人工標注、半自動化及自

動化標注應用提供指導和參考依據。

本文件的使用對象包括報刊、廣播、電視、通訊社、新聞網站等新聞內容提供商及媒體應用與研究

機構。

2規范性引用文件

下列文件中的內容通過文中的規范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T20092中文新聞信息置標語言

GB/T20093中文新聞信息分類與代碼

3術語和定義

下列術語和定義適用于本文件。

3.1

策劃類型

新聞內容與當前報道的新聞專題的關系。

注:與新聞專題報道直接相關的稱為程序稿,與新聞專題報道進行周邊報道和反饋的稱為配合稿。

4標注體系分類

中文新聞信息結構化標注通過分析總結新聞內容數據,按照標注體系劃分為三個類別:

a)實體類信息:指客觀存在的、包含新聞實體公共特征屬性的信息。如新聞事件、事發時間、

主要人物等。

b)業務類信息:指依據新聞領域內業務需求為導向的信息。如新聞場景、新聞背景、新聞情感

等。

c)多媒體類信息:指在新聞圖片、音頻、視頻中存在的信息。如:圖片場景、圖片人物、圖片

屬性、視頻人物、視頻場景、視頻屬性、地標建筑、音頻人物、音頻內容、其他。

5實體類信息

5.1實體類信息類型

全國團體標準信息平臺實體類信息類型包括:

——新聞事件

——事發時間

——相關時間

——事發地點

——相關地點

1

T/CAPT003—2021

——新聞主體

——主要人物

——相關人物

——主要機構

——相關機構

5.2實體類信息詳情

5.2.1新聞事件

新聞報道中對新聞事實的概要性描述。

標注要求:新聞事件分為命名新聞事件和一般新聞事件。命名新聞事件從配備固定的受限詞表中選

取,一般新聞事件根據新聞報道內容開放式填寫。可通過事件抽取算法實現自動標注。

示例:“慶祝改革開放40周年大會”“達沃斯論壇”

5.2.2事發時間

新聞事件實際發生的時間。

標注要求:事件發生的當地時間。

示例:《習近平抵達印度金奈出席中印領導人第二次非正式會晤》一文中提到“當地時間下午2時10分許,習

近平乘坐的專機抵達金奈國際機場。”則事發時間為“當地時間2019年10月11日下午2時10分”。

5.2.3相關時間

新聞事件事發時間之外,新聞報道中提及的時間。

標注要求:除新聞事件發生的時間以外提及的時間,要求不與發稿時間、事發時間重復。可通過自

然語言處理算法實現時間要素的分析和自動標注。

5.2.4事發地點

新聞事件實際發生的地點。

標注要求:從新聞報道中分析發生地的行政區劃、地理位置、地標設施、相關數據。

a)行政區劃。指國家為進行分級管理而實行的區域劃分。

b)地理位置。指對新聞發生地點的地理信息的定量刻畫。

c)設施。指人為建造的并在此中進行相關活動的地點,包括建筑和交通設施及地標等。

d)相關數據。指新聞事件發生時所處環境的實時基礎數據和歷史基礎數據,主要由各類傳感器

采集,包括定位坐標數據、時間數據、設施數據、歷史影像數據等,如設施掃描數據、衛星

數據、歷史圖片與視頻等。該類數據主要通過傳感器技術采集,具有實時、連續、可比較、

可解釋與不可更改的特性。可用于新聞報道中實時記錄、事后溯源、復現、分析、深度調查

等的原始、基礎依據,適用區塊鏈、機器學習、無監督學習等技術對媒體挖掘與調查分析的

輔助應用

示例1:地點為行政區劃的,比如北京市海淀區、紐約市等

示例2:地點為地理位置的,比如北緯35°等

示例3:地點為地標設施的,比如歡樂谷、埃菲爾鐵塔等

示例4:地點為相關數據的,比如由傳感器采集、設施掃描的數據等

5.2.5相關地點

非新聞事件實際發生的地點,新聞報道中提到的行政區劃、地理位置,地標設施,相關數據。

標注要求:從新聞報道中分析提及的行政區劃、地理位置、地標設施、相關數據,要求不與事發地全國團體標準信息平臺

點重復。可通過自然語言處理算法實現相關地點要素的分析和自動標注。

示例見5.2.4

5.2.6主要人物

新聞發生涉及的主體人物。

2

T/CAPT003—2021

標注要求:在新聞報道中占主要成分,常見于標題或導語中。需將主要人物的職務和姓名一同標注。

可通過機器學習、自動標注等進行人物要素的分析。

示例:“美國總統特朗普表示我親眼看到了非常了不起的中華文明和中國取得的非常偉大的成就。美方愿同中

方達成彼此都可接受的貿易協議,這將具有歷史意義。”主要人物為:美國總統特朗普。

5.2.7相關人物

新聞報道中除主要人物以外的,作為出席、陪同形式出現的人物。

標注要求:新聞報道提及的人物,常見于新聞報道結尾部分。記者、編輯不列為相關人物。可通過

機器學習、自動標注等領域人物要素的分析。

示例:《習近平在陜西榆林考察時強調解放思想改革創新再接再厲譜寫陜西高質量發展新篇章》的結尾處有

“丁薛祥、劉鶴、陳希、何立峰和中央有關部門負責同志陪同考察。”相關人物標注為“丁薛祥”、“劉鶴”、“陳

希”、“何立峰”。

5.2.8主要機構

新聞事件報道中起主要作用的組織機構。

標注要求:新聞事件的主要機構包括政府組織、軍事組織、商業組織、非盈利行組織、醫療機構、

教育機構等。主要機構描述常見于標題或導語。

示例:《公安部部署全國公安機關開展2021年烈士紀念日活動》中主要機構標注為“公安部”。

5.2.9相關機構

新聞報道中除主要機構以外提及的其他組織機構。

標注要求:相關機構包括政府組織、軍事組織、商業組織、非盈利行組織、醫療機構、教育機構等。

不可與主要機構重復,可通過自然語言處理算法實現組織機構要素的分析和自動標注。

6業務類信息

6.1業務類信息類型

業務類信息類型包括:

——體裁

——國內/國際分類

——新聞分類

——摘要

——關鍵詞

——新聞場景

——新聞背景

——原文標識

——策劃類型

——新聞情感傾向

——政治術語

——引用(典)

6.2業務類信息詳情

6.2.1體裁

新聞報道的表現形式。全國團體標準信息平臺

標注要求:根據表達新聞的手法、口吻和組織材料結構的不同進行區分,包括:消息、通訊、評論、

公文公報等。

a)“消息”報道事情的概貌,較為簡短,內部無二級標題,宜500~800字以內。通過標題、導語、

主體三層推進。

3

T/CAPT003—2021

b)“通訊”運用敘述、描寫、抒情、議論等多種手法,形象地反映新聞事件或新聞人物。通訊相比

消息內容更長,且內部可存在多級標題。

c)“評論”是新聞傳播機構發表的各種評論形式的報道。包括:述評、社論、評論員文章等文章。

d)“公文公報”指政策文章、領導人講話稿、《求是》雜志發表的文章、公報、受權發布、黨政機

關和人民團體等授權媒體公開發布重大事件或重要決定事項的報道性公文公報。

e)其他體裁,指不屬于上述類別中的體裁,如綜述類新聞、回憶錄、雜文等。

6.2.2國內/國際分類

新聞報道所屬的地域分類。

標注要求:根據新聞事件發生的地點進行分類,港澳臺屬于國內新聞。在中國國內發生的新聞事件,

或者在公共海域完全由中國主導的新聞事件屬于國內新聞。發生在中國以外的國家或地區的新聞屬于國

際新聞。

示例1:國內新聞如《上海市人民政府關于印發<上海市公有住房差價交換辦法>的通知》

示例2:國際新聞如《一圖讀懂英國"脫歐"為何一脫再"拖"》

6.2.3新聞分類

新聞分類代表新聞描述的主題。

標注要求:參考中文新聞信息分類與代碼GB/T20093或其他分類標準。可按照人物、組織等以及事

件本身所屬領域的相關度選擇1~3項。

示例:《習近平出席亞運會開幕式》,標注為政治類和體育類新聞。

6.2.4摘要

新聞報道內容的要點摘錄。

標注要求:從標注新聞中摘取最主要的新聞元素,體現時間、地點、主要人物/組織、發生的事件,

字數在100-150字左右。

6.2.5關鍵詞

新聞報道中的關鍵性內容,包括實體詞、謂詞、具有關鍵信息的詞語。

標注要求:要求選擇言簡意賅,具有檢索意義的詞匯,有較特殊意義的詞、詞組、縮略語,不宜拆

開。若新聞中有其他類別的詞、短語甚至熟語也能夠提示文章的關鍵內容,也應作為關鍵詞處理。

6.2.6新聞場景

新聞專題報道所屬的場合、情景類型。

標注要求:涉及領導人的新聞報道標注相關場景,從制定的新聞場景類型表中選擇填寫,如國內視

察、出國訪問、會見、參會、出席重要場合等。

示例見表1:

表1新聞場景類型

名稱舉例

重要活動會見、會晤、參觀、視察

出國訪問會見、會晤,出發、到達、講話

重要講話講話、聯合聲明、其他

重要會議黨代會、全國人民代表大會、政治協商會議、研討會、論壇、對話

全國團體標準信息平臺會、座談會、專題討論會、表彰會、全體會議

決定、命令、計劃主席令、嘉獎令、通令

重要文章署名文章、講話原文

函電賀詞致電、賀信

指示批示

4

T/CAPT003—2021

6.2.7新聞背景

新聞消息稿中出現的一段對新聞中的人物、地點或者事件的擴展背景進行描述的內容。

標注要求:標記出新聞報道中與主體事件有解釋性的、描述歷史背景的文字內容。

6.2.8原文標識

針對政策性的新聞報道,將包含有非轉述的、原始的內容標記為原文,否則標記為非原文。

標注要求:通過原文標識對新聞文本材料進行區分,通過布爾值標記是否為原文。原文包括領導人

講話、工作報告、條例章程、談話、白皮書、演講、答問、批示、賀信、題詞、署名文章、主旨講話等。

當新聞報道內容為第三人轉述內容比如XX說,XX指出,則不屬于原文。

6.2.9策劃類型

描述新聞內容與當前新聞專題的關系。

標注要求:與新聞專題報道直接相關的為程序稿,與新聞專題報道不直接相關的,如周邊報道、反

饋稿件等為配合稿。

示例1:對事件內容進行烘托、背景資料等信息進行闡述的為配合稿。如《(習近平出訪配合稿)背景資料:伊朗伊

斯蘭共和國》。

示例2:《年終特稿丨不忘初心闊步前行》為年終稿。

6.2.10新聞情感傾向

新聞報道中新聞主要人物或主要機構對新聞事件的感情、態度、意向或立場。

標注要求:

a)判斷文中新聞主要人物、組織或機構對某人或事件表達的態度,感情傾向分為正面、負面、中性。

b)文中主要人物、組織或機構對多個事件對某人或事件表達的態度不同時,也需分事件將其標注出。

示例:新聞情感傾向類型的舉例見表2。

表2新聞情感傾向類型與舉例

類型舉例

正面祝賀、慶祝、贊揚、表揚、感到開心、勉勵、鼓勵、感謝、積極評價、高度評價、熱

烈歡迎、祝福等

中性正常陳述,無情感流露的

負面憤怒、批評、指責、反對等

6.2.11政治術語

新聞報道中文中出現的政治政策、政治口號、政治精神的表述或者縮寫。

標注要求:

a)政治術語由連續或不連續的詞語和短語整合而成;常在含義上表現出高度的凝固性、高度概括性;

形式上較為簡潔、凝練。

b)有三、四、五字等類似慣用語或成語形式的。

c)有呈對偶形式或成對、呈排比形式出現的。

示例:“不忘初心、牢記使命”、“兩個維護”、“兩個一百年”。

6.2.12引用(典)

新聞報道中,被領導人引用的典故、熟語(成語、慣用語、歇后語、諺語)、古文詩詞、格言警句。

標注要求:全國團體標準信息平臺

a)領導人引用的典故,在形式上使用雙引號“”標記出的。若未用引號標記,則不算做是引用。

b)熟語(成語、慣用語、歇后語、諺語)、古文詩詞、格言警句,出現在雙引號內部或“俗話

說”、“古語言”等表述類動詞之后的,均為用典。

示例:“人心所歸,惟道與義”

5

T/CAPT003—2021

7多媒體元素類信息

7.1多媒體元素類信息類型

多媒體元素類信息類型包括:

——人物元素

——場景元素

——地標建筑

——語音內容

——圖片屬性

——音頻屬性

——視頻屬性

——其他

7.2多媒體元素類信息詳情

7.2.1人物元素

新聞圖片、音頻、視頻等多媒體稿件中出現的人名、人臉,進行身份判斷和標記。

標注要求:

a)對圖片、視頻、音頻等多媒體稿件中出現的新聞人物身份進行判斷、標記。

b)可使用人臉識別、語音識別等算法預處理人物信息,標注過程中需要進行人工確認。

7.2.2場景元素

新聞圖片、音頻、視頻等多媒體稿件中出現的新聞場景、情景分類。

標注要求:根據圖片、音頻、視頻中所展現的內容、畫面判斷其所處的場景,進行標記。可使用機

器視覺算法預處理的圖片場景的信息,標注過程中需要進行人工確認。

7.2.3地標建筑

新聞圖片、音頻、視頻中出現的標志性的地理建筑。

標注要求:

a)根據新聞圖片、音頻、視頻中出現的標志性的地理建筑進行標記

b)可通過機器視覺、語音識別、自然語言處理等技術,識別多媒體元素中所出現的地標、建筑物等

地點。如故宮、自由女神像、泰姬陵等。標注中需要進行人工確認。

c)可通過激光、無人機掃描、多模傳感器、衛星多時相、多通道、多譜段衛星遙感影像動態數據等

實現對新聞圖片、視頻地標建筑的標注。(傳感器新聞信息介紹參見附錄A)

7.2.4語音內容

新聞音頻中的語言內容。

標注要求:可通過語音識別技術手段,將音頻中的語音內容轉化成文字記錄。識別的語音結果需人

工輔助核對。

7.2.5圖片屬性

新聞圖片的基本屬性。

標注要求:通過讀取圖片的基本參數,獲得基本屬性,如橫屏/豎屏,時間、位置、環境、像素、

分辨率全國團體標準信息平臺、大小、顏色、色調等。

7.2.6音頻屬性

新聞音頻的基本屬性。

標注要求:通過讀取新聞音頻中的基本參數,獲得基本屬性,如音頻時長、比特率、采樣大小。

6

T/CAPT003—2021

7.2.7視頻屬性

新聞視頻的基本屬性。

標注要求:通過讀取視頻文件的基本參數,獲得視頻的基本屬性,如橫屏/豎屏、時間、位置、環

境、時長、分辨率、碼率、長度、寬度等。

7.2.8其他

其他的多媒體元素標注標簽。

標注要求:通過光學字符識別(OCR)、語音識別、機器視覺、自然語言處理、情緒識別等技術手

段,識別圖片、音頻、視頻中的文字、物品、受眾情緒等內容,根據新聞檢索需要增加的標簽。

全國團體標準信息平臺

7

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論