




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、24/24TOC o 1-3 h z u HYPERLINK l _Toc318277855 (三)數字化加工部分 PAGEREF _Toc318277855 h 1 HYPERLINK l _Toc318277856 6.1.需求分析與總結 PAGEREF _Toc318277856 h 1 HYPERLINK l _Toc318277857 6.2.參考的國家標準及技術規范 PAGEREF _Toc318277857 h 2 HYPERLINK l _Toc318277858 6.3.數字化加工實施細則 PAGEREF _Toc318277858 h 3 HYPERLINK l _Toc3
2、18277859 6.9.1.本項的掃描加工流程 PAGEREF _Toc318277859 h 3 HYPERLINK l _Toc318277860 6.9.2.生產流程有以下幾個要緊的步驟組成: PAGEREF _Toc318277860 h 4 HYPERLINK l _Toc318277861 6.9.3.檔案整理 PAGEREF _Toc318277861 h 5 HYPERLINK l _Toc318277862 6.9.4.著錄標引 PAGEREF _Toc318277862 h 6 HYPERLINK l _Toc318277863 6.9.5.紙件掃描 PAGEREF _T
3、oc318277863 h 7 HYPERLINK l _Toc318277864 6.9.6.圖像處理 PAGEREF _Toc318277864 h 8 HYPERLINK l _Toc318277865 6.9.7.質量檢驗 PAGEREF _Toc318277865 h 10 HYPERLINK l _Toc318277866 6.9.8.檔案還原裝訂 PAGEREF _Toc318277866 h 10 HYPERLINK l _Toc318277867 6.9.9.數據存儲與備份 PAGEREF _Toc318277867 h 12 HYPERLINK l _Toc31827786
4、8 6.9.10.檔案電子數據與XXXXXX煙草檔案系統的無縫掛接 PAGEREF _Toc318277868 h 12 HYPERLINK l _Toc318277869 6.4.項目所采納的OCR處理技術介紹 PAGEREF _Toc318277869 h 12 HYPERLINK l _Toc318277870 6.10.1.OCR(光學字符識不)技術 PAGEREF _Toc318277870 h 12 HYPERLINK l _Toc318277871 6.10.2.所采納的OCR及雙層PDF生產流程 PAGEREF _Toc318277871 h 13 HYPERLINK l _T
5、oc318277872 6.10.3.生產流程邏輯示意圖 PAGEREF _Toc318277872 h 14 HYPERLINK l _Toc318277873 6.5.XXXXXX檔案數字化服務特點 PAGEREF _Toc318277873 h 15 HYPERLINK l _Toc318277874 6.11.1.自動化程度高 PAGEREF _Toc318277874 h 15 HYPERLINK l _Toc318277875 6.11.2.標準化程度高 PAGEREF _Toc318277875 h 15 HYPERLINK l _Toc318277876 6.11.3.嚴格的質
6、量操縱 PAGEREF _Toc318277876 h 15 HYPERLINK l _Toc318277877 6.11.4.文檔安全性高 PAGEREF _Toc318277877 h 15 HYPERLINK l _Toc318277878 6.11.5.標準的格式 PAGEREF _Toc318277878 h 15 HYPERLINK l _Toc318277879 6.11.6.方便存儲與治理 PAGEREF _Toc318277879 h 16(三)數字化加工部分需求分析與總結此次項目是將中國煙草總公司XXXXXX省公司及所屬11個市煙草公司的約183萬頁紙質檔案進行數字化加工并
7、將成品數據掛接到檔案治理系統中,紙質檔案的折分整理、掃描與圖像處理、數據的掛接與光盤備份都將嚴格按照國家檔案局相關標準及XXXXXX省檔案局相關規定,結合XXXXXX煙草檔案現狀定制加工技術規范與生產加工流程。據上述現狀,具體人員安排,項目實施周期,采納標準及實施細則如下。參考的國家標準及技術規范紙質檔案數字化技術規范(DA/T 312005)連續色調靜態圖像的數字壓縮及編碼(GB/T 17235.1-1998)電子文件歸檔與治理規范(GB/T 18894-2002)中央檔案館接收檔案的標準XXXXXX省檔案接收和收集治理相關規定歸檔文件整理規則(DA/T22-2000)檔案著錄規則(DA/T
8、 18-1999)無酸檔案卷皮卷盒用紙及紙板(DA/T 24-2000)檔案修裱技術規范(DA/T 25-2000)XXXXXXXXXXXX檔案數字化技術規范XXXXXX煙草檔案數字化技術規范數字化加工實施細則本項的掃描加工流程生產流程有以下幾個要緊的步驟組成:紙質檔案的整理從檔案室進行檔案提卷,并記錄提卷的內容,接著拆卷,并進行去污、平坦化,并依據檔案紙張的大小和厚薄分類。檔案的整理工作要緊是為了以后檔案的掃描做預備。掃描及圖像處理依照不同檔案紙張的大小和厚薄,選擇不同的掃描儀,較為規整的選擇快速掃描儀,較薄、較厚和不規整的用平板掃描儀,如此既能達到愛護檔案(高速掃描儀會發生卷紙,損壞檔案)
9、的目的,也能提高檔案數字化加工的速度。查重查漏在掃描的過程中,難免會發生重復掃描和漏掃的現象,人工的再次校對能夠發覺檔案數字化過程中出現的情況,并即使糾正。數據項錄入依據檔案著錄規范或者依據客戶檔案的實際著錄項,錄入標題、責任者、歸檔時刻、檔號等各種信息。質量檢測對掃描圖像和著錄的標引數據進行檢驗,圖像要緊是檢驗其掃描和凈化處理質量,數據項的質量檢測要緊是檢測其錄入正確率。檔案還原完成檔案數字化后,要把原先的檔案原件還原成原樣。檔案整理檔案交接檔案按年度、案卷提檔,提檔時數字化實施方的提卷人員對每卷的所有頁面進行統一的編號,全卷所有文件頁號編寫完成后,再依據XXXXXX煙草的要求抽出不需要掃描
10、的文件頁,然后再次按序編寫需要掃描的文件頁號,頁號編寫完成后,按實際文件頁數填寫詳細的紙質檔案交按清單,并由雙方主管人員簽字。檔案拆分檔案拆分前要對檔案進行統一的編號,編制總頁號后,要從中選中需要掃描的頁面。再一次編制所需掃描的頁號,兩個頁號需用鉛筆的顏色或位置區分,以確保檔案還原時能夠清晰區不和核時頁數。目錄數據預備按照檔案著錄規則(DA/T18)等的要求,規范檔案中的目錄內容。包括確定檔案目錄的著錄項、字段長度和內容要求。如有錯誤或不規范的案卷題名、文件名、責任者、起止頁號和頁數等,應進行修改。拆除裝訂在不去除裝訂物情況下,阻礙掃描工作進行的檔案,應拆除裝訂物。拆除裝訂物時應注意愛護檔案不
11、受損害。區分掃描件和非掃描件按要求把同一案卷中的掃描件和非掃描件區分開。普發性文件區分的原則是:無關和重份的文件要剔除,有正式件的文件能夠不掃描原稿。頁面修整破損嚴峻、無法直接進行掃描的檔案,應先進行技術修復,折皺不平阻礙掃描質量的原件應先進行相應處理(壓平或熨平等)后再進行掃描。檔案整理登記制作并填寫紙質檔案數字化加工過程交接登記表單,詳細記錄檔案整理后每份文件的起始頁號和頁數。著錄標引標引著錄標引著錄為了方便查閱與治理,打印制作檔案目錄及檔案封面,對文字錄入的準確性要求較高,但要錄的文本域并不是完全統一的在某一頁面上,一些文本域要在多個文件中選擇,因此錄入時需要相關學部專家進行指導,確保文
12、本域錄入的準確率。對所需錄入的文本進行標引、或對不同類不的檔案錄入特征制作相應的文字錄入工作講明書,供錄入員和校對人員參考。錄入方式由于文本類型不一,有印刷體、手寫體、有表格內的也有表格外的文本信息,因此采納手工錄入和OCR(光學字符識不)軟件相結合的方式錄入。即手寫體或不清晰的印刷體采納手工錄入,較規整的印刷體采納OCR技術的錄入方式。校對方式校對以軟件校對和打印輸出對比校對相結合的方式,即對手工錄入和OCR自動錄入的文本打印輸出進行對比校對的一校、二校、抽查校對,確保索引信息達到出版質量萬分之一以下。紙件掃描原件的掃描與存儲格式完全按照國家檔案治理的統一標準和XXXXXX煙草的相關要求掃描
13、。掃描人員按照掃描與處理工作講明書的要求,填寫移交清單(此移交清單是檔案拆分人員和掃描人員共同填寫)并簽字領取并進行紙件掃描。掃描圖像使用先進的圖像掃描處理軟件(快圖像系統),掃描人員可依照原稿質量,對系統進行定義,如自動傾斜校正、自動去污、自動分文件等批處理功能。在由系統自動處理功能的同時,掃描人員依照原件的實際情況做相應的調整,如超大頁面的處理、紙張顏色深淺及薄厚的處理、掃描時可依照不同原件的情況,調整圖像的分辨率、閥值、明亮度以及掃描方式和掃描速度,確保在掃描圖像質量清晰的情況下,使原件完好無損。圖像的分辨率正常情況下為300dpi,如遇字間距和行行距過密、原件本身是復印件等字跡不清晰的
14、情況,可適當增加掃描的分辨率但要保正圖像清晰的同時,又不阻礙遠程查詢和巡游的速度。掃描方式依照檔案幅面的大小(A4、A3、A0等)選擇相應規格的掃描儀或專業掃描儀(如工程圖紙可采納0號圖紙掃描儀)進行掃描。大幅面檔案可采納大幅面數碼平臺,或者縮微拍攝后的膠片數字化轉換設備等進行掃描,也能夠采納小幅面掃描后的圖像拼接方式處理。紙張狀況較差,以及過薄、過軟或超厚的檔案,應采納平板掃描方式;紙張狀況好的檔案可采納高速掃描方式以提高工作效率。掃描色彩模式掃描色彩模式一般有黑白二值、灰度、彩色等。通常采納黑白二值。頁面為黑白兩色,同時字跡清晰、不帶插圖的檔案可采納黑白二值模式進行掃描。頁面為黑白兩色,但
15、字跡清晰度差或帶有插圖的檔案,以及頁面為多色文字的檔案,能夠采納灰度模式掃描。頁面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,可視需要采納彩色模式進行掃描。掃描分辨率掃描分辨率參數大小的選擇,原則上以掃描后的圖像清晰、完整、不阻礙圖像的利用效果為準。采納黑白二值、灰度、彩色幾種模式對檔案進行掃描時,其分辨率一般均選擇大于或等于200dpi。專門情況下,如文字偏小、密集、清晰度較差等,可適當提高分辨率。需要進行OCR漢字識不的檔案,掃描分辨率建議選擇大于或等于dpi。掃描登記 認真填寫紙質檔案數字化轉換過程交接登記表單,登記掃描的頁數,核對每份文件的實際掃描頁數與檔案整理時填寫的文件
16、頁數是否一致,不一致時應注明具體緣故和處理方法。圖像處理XXXXXXXXXXXX檔案數字化工廠采納自動化處理和人工處理相結合的方式,確保圖像質量的完美。通過校對系統對圖像進行校對,確保圖像順序正確、去斑點、校驗。,在校對時發覺不合格圖像及時返回前一工序進行改正。污漬、黑邊、偏斜處理數字化加工系統會依照原件質量的好壞對污漬的情況進行自動輕度、中度、高度去污,對紙質變質或掃描時的黑邊完全自動清除、自動進行偏斜校正處理。系統支持局部去污、并能對不能夠自動處理的頁面進行單頁多次修正。圖像處理人員在發覺掃描不合格的文件,進行登記后交掃描人員處理,雙方簽字確認后的表單留存備查。使因掃描造成的不合格圖像機時
17、返回上一生產流程。全文字面的掃描密度圖像處理人員在進行處理前,掃描人員會依照不同原件的情況,提高圖像掃描的分辨率、閥值、明亮度以及掃描方式,如遇字間距和行行距過密、原件本身是復印件等字跡不清晰的情況,對手寫過密的要對圖像進行細致的修正,確保各書寫工具寫出的不同顏色、深淺的文字及圖像信息清晰可辯。粘帖頁與表格對粘帖頁面的處理先用XXXXXX數字化加工軟件系統進行自動處理,在掃描的時消除粘帖重疊的曲線,不能自動處理的放大后人工處理。對字跡與表格線顏色深淺不一在掃描時進行細微調整后,圖像處理時再進行局部調整。以確保數字檔案的可閱讀性。一般性文本流程圖提高圖像掃描的分辨率,調整閥值、明亮度以及掃描方式
18、,采納局部處理技術對圖像進行修正。以確保數字檔案巡游時辨認流程圖的流程線。插圖頁面處理檔案中有插圖的要在掃描時對提高分辨率及相應調整,圖文混排的頁面不做拆分,在保持原始頁面信息的同時使圖像清晰可辯。照片頁的處理依照黑白或彩色圖像對頁面進行調整,對專門照片的處理,必要時采納專業的圖像處理軟件進行處理,確保照片的清晰度。存儲格式與頁面空間分辨率:200dpi圖像格式:TIFF、JPG儲存空間:B5或A4,20-30KB/頁質量檢驗對掃描處理完成后的圖像頁進行檢驗,對檔案拆分、掃描、修正、去污、文本流程圖的處理、插圖、照片的處理以及文本和圖像頁的匹配進行檢驗等質量進行全面檢驗。對文本域錄入與文本錄入
19、域的標引、文件的頁號及頁數進行對比,對掃描前的圖像頁的標引與掃描后的圖像頁的編號與頁數進行對比,發覺不合格的登記清單并退回上一流程重新處理。檔案還原裝訂檔案整理工作嚴格按照中央檔案館進館標準規定的相關標準和XXXXXX煙草的實際情況進行有序的整理,XXXXXXXXXXXX檔案數字化中心安排專人負責案卷合并與整理。原件合并把掃描時挑出的頁面插入到原來的頁面位置中去,將掃描時展開的超大頁面還原到掃描前的原樣,把數字化中挑出的不要的多余頁面提出。全卷整理將每卷文件按形成的時刻、順序、文件類不進行整理。編寫頁號按重新整理頁面上按順序統一的編寫頁號。案卷目錄和卷內目錄按順序將一個項目文件的合并到一卷中,
20、并按中央檔案館進館標準和XXXXXX煙草特有字段組成案卷目錄和卷內目錄。打印案卷封面和卷內目錄對案卷目錄和卷內目錄與卷內文件進行匹配后打印案卷目錄和卷內目錄以備裝訂使用。裝訂嚴格按照中央檔案館進館標準和XXXXXX煙草的要求將每卷檔案的封面、卷內目錄、卷內文件、左下角對齊打成三孔一線裝訂還原檔案。案卷分盒按年度、案卷、類不、機構等有規則地按順序裝入定制的檔案盒。打印裝箱單按年度、箱號、盒號、卷號、總頁數打印裝箱清單。或按檔案檔案館的要求制作打印裝箱單。按順序裝箱按箱子編號、年度、箱內盒數、案卷數與總頁數裝箱,參照國家檔案館的要求結合XXXXXX煙草的實際情況按序裝箱。編制目錄(年度目錄)制作出
21、XXXXXX煙草檔案裝箱目錄,合并各箱清單,統一編制頁碼,形成裝箱目錄,并按通用格式存儲裝箱目錄的電子文件,以便檢索與查找,或按檔案館進館要求編制。數據存儲與備份在生產過程中,XXXXXX掃描加工中心是一個基于網絡化流程化生產治理系統,我們在掃描的同時就同時產生兩份備原始圖像數據的備份數據。在通過生產系統質量驗收合格的電子文件后,我們將把掃描的成品數據與XXXXXX煙草的檔案治理系統掛接,將按規則生產原始圖像光盤及具備單盤檢索的數據光盤。檔案電子數據與XXXXXX煙草檔案系統的無縫掛接文本域錄入和掃描處理檢驗后的圖像成品,按年度進行文字圖像與系統的掛接,不需手工掛接即可實現文本與圖像頁與系統的
22、掛接。掛接到XXXXXX煙草檔案治理系統中后,進行再次的成品驗收,對各種使用適應逐頁進行檢驗,驗收合格后移交到由XXXXXX煙草專家組成的驗收小組驗收。確保完美無縫掛接因為XXXXXX煙草檔案治理系統是采納XXXXXX軟件的檔案治理軟件系統,XXXXXX檔案掃描加工系統和XXXXXX檔案治理系統能夠實現自動批量掛接,無需人工干預即可實施目錄數據與原文電子數據的無縫掛接。項目所采納的OCR處理技術介紹OCR(光學字符識不)技術OCR是英文Optical Character Recognition 的縮寫,中文意思確實是通過光學技術對文字進行識不。OCR概念的產生是在1929年,德國的科學家Tau
23、sheck首先提出了OCR的概念,同時申請了專利。幾年后,美國科學家Handel也提出了利用技術對文字進行識不的方法。但這種夢想直到計算機的誕生才變成了現實。現在這一技術差不多由計算機來實現,OCR的意思就演變成為利用光學技術對文字和字符進行掃描識不,轉化成計算機內碼。所采納的OCR及雙層PDF生產流程識不模塊 具有超強的識不核心.能夠識不簡、繁體漢字2萬多,識不的語言包括中文簡、繁體、英文、日文、韓文,自動版面分析能力大大增強.最大限度減少手工操作量。縱向校對模塊能夠將成百上千張圖像一起校對將識不成同一個字的圖像集中在一個窗口內,先標記錯誤,再自動與橫校進行合并,后統一改正,校對工作量減少80%,錯誤率可操縱在萬分之一。版面恢復模塊通過版面恢復編輯器,能夠將原始圖像的所有信息恢復過來。比如:字體、顏色、花邊等。雙層PDF生成模塊可直接在程序中進行后臺PDF處理,無需在Acrobat中生成,方便而快捷。能夠選擇生成多種PDF格式:雙層PDF文檔包括圖文混排的PDF、圖在文上的PDF、圖在文下的PDF等。自動
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鐵路信號設備更新改造項目實施考核試卷
- 石棉水泥制品企業運營管理考核試卷
- 礦產勘查中的勘查設備維護與管理考核試卷
- 保健食品營養均衡發展策略實施效果考核試卷
- 安全監控在物流行業的應用案例分析考核試卷
- 異物卡喉急救處理指南
- 兒科急診常見疾病案例
- 口腔科院感防控與管理體系
- 蚊子傳播疾病機制與防控
- 麻醉質控總結報告
- 2025年氨水市場需求分析
- 做課件教學視頻
- 2025年特種設備安全考試題庫特種設備安全管理人員法規應用試卷
- 普法試題及答案初中
- 中控崗位考試題及答案
- 商鋪退押金協議書
- 碘對比劑護理應用與安全管理
- 2025-2030年中國航空密封件行業市場現狀供需分析及投資評估規劃分析研究報告
- 知識產權租賃協議書
- GB 45673-2025危險化學品企業安全生產標準化通用規范
- 醫院培訓課件:《新生兒早期基本保健專家共識(2020)解讀》
評論
0/150
提交評論