標準解讀

《GB/T 33994-2017 信息和文獻 WARC文件格式》是中國國家標準之一,它規定了用于長期保存網頁和其他數字資源的WARC(Web ARChive)文件格式。該標準主要參考國際互聯網檔案館提出的相關規范,并結合國內實際情況進行了適應性調整,旨在為我國的信息資源長期保存提供技術支持。

WARC文件格式是一種用于存儲網絡爬蟲抓取結果或其他類型數字內容的數據封裝格式。與早期使用的ARC文件格式相比,WARC增加了更多元化的記錄類型支持以及更豐富的元數據描述能力,能夠更好地滿足不同應用場景下對數字資源歸檔的需求。

根據該標準定義,一個完整的WARC文件由一系列連續排列的WARC記錄組成,每個WARC記錄又包含了若干個部分:版本號、記錄頭、可選的內容塊等。其中,記錄頭使用鍵值對形式來表示關于該條記錄的各種屬性信息;而內容塊則用來存放實際捕獲到的數據內容。此外,還允許在記錄之間插入填充字節以確保特定位置上的邊界對齊要求得到滿足。

對于每種類型的WARC記錄(如“響應”、“請求”、“重定向”等),標準都給出了詳細的結構說明及示例,以便于開發者理解和實現相應的讀寫功能。同時,為了保證WARC文件能夠在不同系統間進行互操作,《GB/T 33994-2017》也明確了編碼規則、壓縮算法選擇等方面的指導原則。


如需獲取更多詳盡信息,請直接參考下方經官方授權發布的權威標準文檔。

....

查看全部

  • 現行
  • 正在執行有效
  • 2017-07-12 頒布
  • 2018-02-01 實施
?正版授權
GB/T 33994-2017信息和文獻WARC文件格式_第1頁
GB/T 33994-2017信息和文獻WARC文件格式_第2頁
GB/T 33994-2017信息和文獻WARC文件格式_第3頁
GB/T 33994-2017信息和文獻WARC文件格式_第4頁
免費預覽已結束,剩余28頁可下載查看

下載本文檔

GB/T 33994-2017信息和文獻WARC文件格式-免費下載試讀頁

文檔簡介

ICS3524030

A14..

中華人民共和國國家標準

GB/T33994—2017/ISO285002009

:

信息和文獻WARC文件格式

Informationanddocumentation—WARCfileformat

(ISO28500:2009,IDT)

2017-07-12發布2018-02-01實施

中華人民共和國國家質量監督檢驗檢疫總局發布

中國國家標準化管理委員會

GB/T33994—2017/ISO285002009

:

前言

本標準按照給出的規則起草

GB/T1.1—2009。

本標準使用翻譯法等同采用信息和文獻文件格式

ISO28500:2009《WARC》。

與本標準中規范性引用的國際文件有一致性對應關系的我國文件如下

:

數據元和交換格式信息交換日期和時間表示法

———GB/T7408—2005(ISO8601:2000,

IDT)。

本標準做了下列編輯性修改

:

增加了縮略語見

———:LWS、MIME、US-ASCII(3.2);

為了增強易讀性在保留國際標準中示例的基礎上將部分示例替換為國內示例見附錄

———,,(B)。

本標準由全國信息與文獻標準化技術委員會提出并歸口

(SAC/TC4)。

本標準起草單位國家圖書館中國科學院文獻情報中心中國國防科技信息中心中國科技信息研

:、、、

究所北京萬方數據股份有限公司

、。

本標準主要起草人毛雅君李春明吳振新真溱曲云鵬張曉丹張蘭楊賀敦文杰張彪

:、、、、、、、、、。

GB/T33994—2017/ISO285002009

:

引言

每天網站和網頁從互聯網上產生或消失十多年來記憶存儲組織嘗試用網絡規模工具如網絡

,。,(

爬蟲尋找最適宜采集并跟蹤記錄海量的重要信息的方法與此同時記憶存儲組織對保存非網絡抓取

)。,

的數字化資源的需求也與日俱增如整套電子期刊或環境感應設備生成的數據出現了一種需求即

(,)。,

希望能有一種文件格式通過一個文件簡單并安全地承載大量組成文件的數據對象以便進行存儲管

,,、

理和交換

網絡存檔文件格式提供了一個由多個資源記錄數據對象連接成一個長

WARC(WebARChive,)()

文件的協議其中每個資源記錄由一組簡單文本標頭和任意數據內容塊構成格式是文

,。WARCARC

件格式的擴展格式將作為組織管理和儲存采集來自網絡和其他數以億計的數字資源的一種

。WARC、

標準可用于構建收割如網絡爬蟲一種開源軟件管理訪問和交換內容等各種應用

,(Heritrix,)、、。

除了用記錄的原始內容外擴展的格式還容納相關的二次級內容如分配的元數據

ARC,WARC,、

縮減的重復檢測活動后期轉換及大型資源的切分等

、。

GB/T33994—2017/ISO285002009

:

信息和文獻WARC文件格式

1范圍

本標準規定了文件格式

WARC:

存儲來自于主流互聯網應用層協議如和的有效載荷內容和控制信息

———(HTTP、DNSFTP);

存儲與其他已存儲數據如主題分類語言編碼相關的任意元數據

———(、、);

支持數據壓縮且保證數據記錄的完整性

———,;

存儲來自收割協議的全部控制信息如請求標頭信息而不僅僅是響應信息

———(),;

存儲與其他已存儲數據相關的數據轉換結果

———;

存儲與其他已存儲數據相關的重復監測活動當相同或者大體相似的資源出現時可以減少存

———(,

儲消耗

);

在不中斷當前功能的情況下進行擴展

———;

支持對超長記錄在所需處進行截斷或分段操作

———。

2規范性引用文件

下列文件對于本文件的應用是必不可少的凡是注日期的引用文件僅注日期的版本適用于本文

。,

件凡是不注日期的引用文件其最新版本包括所有的修改單適用于本文件

。,()。

數據元和交換格式信息交換日期和時間表示法

ISO8601(Dataelementsandinterchange

formats—Informationinterchange—Representationofdatesandtimes)

域名實現及標準

RFC1035(Domainnames—Implementationandspecification)

地址架構

RFC1884IPV6(IPVersion6AddressingArchitecture)

多用途互聯網郵件擴展第部分互聯網消息正文的格式

RFC2045(MIME)1:[Multipurpose

InternetMailExtensions(MIME)PartOne:FormatofInternetMessageBodies]

分離域名解析系統信息

RFC2540(DNS)[DetachedDomainNameSystem(DNS)Information]

超文本傳輸協議

RFC2616—HTTP/1.1(HypertextTransferProtocol—HTTP/1.1)

互聯網消息格式

RFC2822(InternetMessageFormat)

的一種轉換格式

RFC3629UTF-8———ISO10646(UTF-8,atransformationformatofISO10646)

溫馨提示

  • 1. 本站所提供的標準文本僅供個人學習、研究之用,未經授權,嚴禁復制、發行、匯編、翻譯或網絡傳播等,侵權必究。
  • 2. 本站所提供的標準均為PDF格式電子版文本(可閱讀打印),因數字商品的特殊性,一經售出,不提供退換貨服務。
  • 3. 標準文檔要求電子版與印刷版保持一致,所以下載的文檔中可能包含空白頁,非文檔質量問題。

評論

0/150

提交評論