紙質檔案數字復制件光學字符識別(OCR)工作規范(DA T 77-2019)
時間:2023-10-12ICS 01.140.20
A 14
中華人民共和國檔案行業標準
DA/T 77-2019
紙質檔案數字復制件光學字符
識別(OCR)工作規范
Specification for optical character recognition (OCR) of digital
copies of paper-based records
2019-12-16發布 2020-05-01 實施
國家檔案局 發布
DA/T 77-2019
前 言
本標準按照GB/T 1.1-2009給出的規則起草。
本標準由國家檔案局提出并歸口。
本標準起草單位:國家檔案局館室司、青島市檔案館。
本標準主要起草人:劉蕓、丁德勝、楊來青、鄒杰。
DA/T 77-2019
紙質檔案數字復制件光學字符
識別(OCR)工作規范
1 范圍
本標準規定了紙質檔案數字復制件光學字符識別(OCR)工作的組織、實施和管理。
本標準適用于字跡清晰、文本規范的紙質檔案數字復制件的光學字符識別(OCR)工作。
2 規范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
DA/T 13 檔號編制規則
DA/T 22 歸檔文件整理規則
DA/T 31 紙質檔案數字化規范
3 術語和定義
下列術語和定義適用于本文件。
3.1
字符 character
供組織、控制或表示數據用的元素集合中的一個元素。
[GB 18030-2005,定義4.1]
3.2
字符集 character set
多個字符的集合。
注:常見字符集有ASCII字符集、GB 2312字符集、BIG5字符集、GB 18030字符集、Unicode字符集等。
3.3
光學字符識別 optical character recognition;OCR
通過信息技術對圖像文件中的字符形狀進行識別、文字轉換和文本輸出、呈現的過程。
3.4
紙質檔案數字復制件 digital copy of paper-based record
紙質檔案經過數字化加工過程后形成的,存儲在磁帶、磁盤、光盤等載體上并能被計算機等電子設備識別的數字圖像。
3.5
檔案OCR成果 OCR outcome of record
記錄通過OCR技術獲取的紙質檔案數字復制件文字內容的文件。
DA/T 77-2019
3.6
識別準確率 recognition accuracy
通過OCR技術識別正確字符的比率。
注:識別準確率=(識別正確字符數/應識別字符總數)x100%
3.7
識別速度 recognition speed
單位時間內通過OCR技術識別字符的數量。
4 總則
4.1 檔案OCR應納人數字檔案館(室)資源建設范疇,統籌規劃、有序實施,逐步實現常態化。
4.2 檔案OCR應科學開展,有利于實現檔案信息檢索和計算機輔助編目、編研開發、數據挖掘。
4.3 檔案OCR應基于檔案數字化工作,檔案OCR成果與紙質檔案數字復制件之間應建立準確、可靠的關聯關系。
4.4 應當采取有效的管理和技術手段,加強檔案OCR的過程管理和質量控制,確保檔案OCR過程規范、成果可靠、數據安全。
4.5 涉密紙質檔案數字復制件的OCR工作,應符合涉密檔案相關的管理和技術要求。
5 工作組織
5.1 機構及人員
5.1.1 應建立檔案OCR工作機構,配備相應素質和技術水平的工作人員,組織開展檔案OCR工作的統籌規劃、組織實施、協調管理、技術保障、安全保障、監督檢查、成果驗收和長期保存等。檔案OCR可與紙質檔案數字化工作統籌配置工作機構和人員。
5.1.2 檔案OCR工作實行服務外包的,應從企業性質、股東組成、安全保密、企業規模、注冊資金情況等方面嚴格審查檔案OCR服務供方的相關資質;從規章制度的建立健全程度等方面考查服務供方的管理能力,建立權責明確、覆蓋工作全過程的監督機制和安全防范機制,確保檔案信息安全。對外聘的工作人員,應進行安全審查,按規定進行保密教育。
5.2 流程控制
5.2.1 檔案OCR流程包括圖像導入、圖像預處理、比對識別、修改校正、成果整理輸出五個業務環節。應依據相關技術標準,對檔案OCR全過程進行有效控制。
5.2.2 應加強對檔案OCR工作全流程的質量管理和安全管理,建立完善的質量、安全問題發現、修正機制,確保OCR成果質量和檔案信息安全。
5.3 工作文件與元數據
5.3.1 應建立檔案OCR工作方案、技術方案、工作審批材料、流程控制材料、數據驗收材料、項目驗收報告、成果移交材料等的管理工作文件,采取服務外包的還應包括項目招標文件、投標文件、中標通知書、項目合同、保密協議、操作規程、監管記錄等,以加強對檔案OCR工作的管理。
5.3.2 應參照相關標準,提出檔案OCR工作流程中相關元數據設計、捕獲、著錄和管理的基本要求,與對應的紙質檔案數字復制件管理過程元數據實施融合管理,并納人數字檔案館(室)應用系統數據庫。
DA/T 77-2019
6 方案制定
6.1 確定工作策略
6.1.1 OCR工作開展前,應當依據紙質檔案數字復制件OCR項目的計劃、合同、招投標書等有關項目文件,對OCR工作的識別處理系統、網絡系統、基礎設施、保障能力等方面進行業務評價。
6.1.2 評價通過后,應根據以下因素,制定檔案OCR的工作策略:
----圖像資源:符合導入標準的可識別的彩色(24 bits)、灰度(256階)和黑白二值圖像。一
般應為TIFF、BMP、JPG、PDF(圖像)、OFD(圖像)格式文件。
----OCR引擎:對圖像包含文字進行高速度和高準確率識別的OCR軟件開發包。
----OCR軟件:裝備OCR引擎的軟件,可高速、準確輸出識別成果,支持人工比對和校正。應根
據需要識別的目標,按照項目資源的成本風險平衡原則確定OCR的范圍、質量、效率、技術等要求。
----基礎設施:支持系統運行的場所、設施和設備,包括OCR設備及工作間、介質的場外存放場
所、備用的機房及輔助設施等。
----專業技術支持能力:對系統的運轉提供支撐和綜合保障的能力,以實現系統的預期目標。包
括硬件、系統軟件和應用軟件的問題分析和處理能力,網絡系統安全運行管理能力,溝通協
調能力等。
----運行維護管理能力:保障系統相關的設備和軟件正常運行,提供長期、及時、全面的技術
支持的能力。包括運行環境管理、系統管理、安全管理和變更管理等。
----災難恢復預案:對系統災難實行快速、有效的響應和恢復。包括災難緊急響應,災后系統
重建及重續運行,通信、后勤、技術等相關保障機制建設。
6.2 制定技術方案
6.2.1 應當根據確定的檔案OCR工作策略制定OCR各工作系統技術方案,包含OCR的數據管理系統、OCR識別處理系統和網絡系統。技術方案中所涉及的系統應滿足如下條件:
----與檔案管理系統相當的安全保護級別;
----具有可擴展性;
----對檔案管理系統無明顯可用性和性能影響。
6.2.2 為確保技術方案滿足檔案OCR工作策略的要求,應對技術方案進行確認和驗證,并記錄和保存驗證及確認的成果。按照確認的OCR軟件技術方案進行開發,實現所要求的數據管理系統、OCR識別處理系統和網絡系統。
6.2.3 應按照經過確認的技術方案,制定OCR軟件各階段的系統安裝及測試計劃,以及支持不同關鍵業務功能的系統安裝及測試計劃,并組織最終用戶共同進行測試。確認以下各項功能可正確實現:
----對識別圖像進行預處理;
----數據識別及校驗;
----輸出檔案OCR成果;
----數據安全管理。
7 檔案OCR的實施
7.1 圖像導入
7.1.1 檔案OCR實施前,應先評估紙質檔案數字復制件質量是否符合OCR的基本要求。評估內容
DA/T 77-2019
一般應包括圖像分辨率、偏斜度、清晰度、失真度、亮度、對比度、灰度等。
7.1.2 紙質檔案數字復制件的圖像分辨率應不低于200dpi。特殊情況下,如文字偏小、密集、清晰度較差等,可以適當提高分辨率。文件命名應符合DA/T 13、DA/T 22、DA/T 31的規定。
7.1.3 對質量不能達到檔案OCR工作基本要求的紙質檔案數字復制件,應按照DA/T31的要求重新數字化后導入。
7.2 圖像預處理
7.2.1 二值化
7.2.1.1 在識別處理前,應對彩色圖像進行灰度化和二值化處理,對灰度圖像進行二值化處理。應采取局部自適應二值化等算法,并支持自動或手動調節。
7.2.1.2 應具備亮度和對比度值自動、手動調節功能。亮度和對比度值的設定以調整后的圖像中文字的筆畫連貫清晰為準。
7.2.2 圖像降噪
7.2.2.1 對圖像中印刷體字符進行識別處理前,需要根據噪聲的特征對待識別圖像進行降噪處理,提升識別處理的精確度。
7.2.2.2 降噪處理應去除在掃描過程中產生的污點、污線、黑邊等影響圖像質量的雜質,去除檔案頁面原有的紙張褪變斑點、水漬、污點、裝訂孔等影響識別的地方。
7.2.3 傾斜校正
7.2.3.1 對圖像進行識別前,應進行圖像方向檢測并進行自動水平或垂直傾斜校正。
7.2.3.2 應支持由用戶指定圖像傾斜的角度,采用相應的圖像旋轉算法進行手工傾斜校正。
7.2.4 圖像監測
圖像質量控制程序應自動檢測圖像處理質量。對無法達到質量要求的圖像進行標注。
7.3 比對識別
7.3.1 版式分析
7.3.1.1 比對識別前應對圖像中的字符塊結構進行版式分析,把圖像中相似的版塊信息劃分到一起。如橫排文本、豎排文本、表格、圖形等。
7.3.1.2 版式分析可采取多種分析方法,自動檢測各版塊類型,對圖像內部區域進行邏輯歸類,記錄各版塊的位置,存儲版面信息。
7.3.2 檔案特征分析
7.3.2.1 歸檔章分析。建立歸檔章式樣庫,自動識別圖像中的歸檔章,并根據歸檔章樣式,識別出字段位置,如全宗號、年度、機構、保管期限、件號、頁數等。
7.3.2.2 公文要素分析。建立公文格式庫,可準確識別公文的版頭、主體、版記三部分,識別公章、簽章等區域,比照公文樣式,識別密級和保密期限、緊急程度、發文字號、簽發人、標題、主送機關、正文、附件說明、發文機關署名、成文日期、附注、附件、抄送機關等公文要素。公文要素OCR識別要求見附錄A。
7.3.2.3 表格分析。建立單獨表格處理模塊,建立專用表格模板定義工具,自定義文件處理單、發文稿紙、備考表等表格模板,識別表格中的字段位置。
7.3.2.4 印章分析。識別印章圖像位置,存儲印章圖像,建立印章名稱與印章圖像的關系庫,用于
DA/T 77-2019
版式恢復。
7.3.3 識別和匹配
7.3.3.1 識別時應抽取字體、字號、粗體、斜體、首行縮進等字符特征,通過相似度計算方法,與特征數據庫比對,識別為計算機文字內碼。
7.3.3.2 特征數據庫應存儲多種印刷體字符、常用簽名和批注手寫體字符,具備可更新和可擴充性。對使用頻率高的漢字、英文、數字以及常用的符號、常用簽名和批注手寫體字符應建立高頻庫。應將無法識別的手寫體篩選出來,通過人工識別,并將識別成果存入字符庫。
7.3.3.3 應通過將比對后的識別文字根據上下文在可能的相似候選字群中找出最合乎邏輯的字詞對識別文字進行除錯或更正,以提高OCR識別準確率。
7.4 修改校正
7.4.1 應對識別的文本進行自動語義識別和校正,通過詞匯庫和語義庫對識別后文本中的字符、詞匯、語句自動進行逐層分析更正。詞匯庫和語義庫應具備更新和自動學習功能。
7.4.2 應對候選字、拒認字和可能有問題的字詞、語句進行標記。
7.4.3 應支持以人工方式對OCR成果進行圖像與識別文字對照、修正等校正的功能,以滿足更高識別準確率的特殊要求。
7.5 成果整理輸出
7.5.1 成果整理
7.5.1.1 支持按照紙質檔案數字復制件的版式對OCR成果的段落和表格進行版面理解與重建。重建后OCR成果的段落編排、表格樣式應與紙質檔案數字復制件圖像一致。
7.5.1.2 應自動分析、提取黨政機關公文的各公文要素,包括密級和保密期限、緊急程度、發文字號、簽發人、標題、主送機關、正文、附件說明、發文機關署名、成文日期、附注、附件、抄送機關等。檔案OCR成果中各公文要素位置應與紙質檔案數字復制件圖像一致。
7.5.1.3 應支持調用、編輯、備份、導出OCR成果,支持對文字、符號的搜索等功能。
7.5.2 成果輸出
7.5.2.1 檔案OCR成果應同時保存為純文本形式和雙層PDF/OFD文件形式。
7.5.2.2 應以紙質檔案的件或頁為單位輸出、保存純文本形式檔案OCR成果。純文本形式OCR成果保存規則參見表1:
表1 OCR成果保存規則
紙質檔案數字復制件保存形式 |
檔案OCR成果保存形式 |
用途 |
一件檔案保存為一個文件 |
一個txt文件 |
便于紙質檔案數字復制件和OCR 成果管理 |
一件檔案分組件(收發文處理單、 正文、定稿等)保存為多個文件 |
一個紙質檔案數字復制件文件保 存一個txt文件 |
|
一件檔案按頁保存為多個文件 |
一頁保存一個txt文件 |
便于全文檢索后原件頁面的準確 定位和呈現 |
7.5.2.3 應以檔號為基礎對純文本形式檔案OCR成果命名,命名方式的選擇應確保檔案OCR成果
DA/T 77-2019
命名唯一性。一件檔案保存為多個檔案OCR成果文件時,應按檔號結合OCR成果順序流水號為檔案OCR成果命名。
示例1:檔號為A001-001-0001-0001的紙質檔案數字復制件,對應的OCR成果文件名為A00100100010001.txt。
示例2:檔號為A001-001-0001-0002的紙質檔案數字復制件包含收文處理單、文件正本兩個文件,對應的OCR成果文件名分別為A00100100010002_01.txt和 A00100100010002_02.txt。
7.5.2.4 應根據紙質檔案數字復制件版式文件格式,自動形成支持全文檢索的雙層PDF或OFD文件,方便全文檢索后對文件的閱讀。
7.5.2.5 應支持按照檔案著錄規則和電子檔案元數據規范,自動保存檔案OCR成果中的黨政機關公文要素。相關公文要素應保存到數字檔案館(室)應用系統數據庫。
7.5.2.6 應支持檔案OCR成果中文簡繁體的自動轉換功能。
7.5.3 成果驗收
7.5.3.1 應采用計算機自動檢驗與人工檢驗相結合的方式對紙質檔案OCR成果進行驗收檢驗。
7.5.3.2 驗收檢驗內容包括OCR成果、提取的黨政機關公文要素、數據掛接情況、OCR工作文件和存儲載體等。
7.5.3.3 能夠采用計算機自動檢驗的項目應采用計算機自動檢驗的方式進行100%檢驗,對于無法用計算機自動檢驗的項目,可根據情況以件或卷為單位采用抽檢的方式進行人工檢驗。抽檢比率不得低于5%。
8 檔案OCR質量要求
8.1 識別準確率
8.1.1 檔案OCR對檔案中文、數字、英文印刷體的識別準確率在95%以上。
8.1.2 檔案OCR對常用簽名識別準確率達到90%以上,手寫體識別準確率達到80%以上。
8.2 強抗噪能力
8.2.1 檔案OCR應當具備對噪點的強抵抗能力,識別過程中能夠有效屏蔽較大程度的噪點干擾。
8.2.2 檔案OCR應能準確判別紙質檔案數字復制件上的污點、污線、黑邊、紙張褪變斑點、水漬、污點、裝訂孔等,提高識別準確率。
8.3 識別速度
8.3.1 識別速度指標與識別準確率指標應同時適用。
8.3.2 在主流計算機軟硬件平臺下,A4紙幅面中文識別速度不低于1000字/s,英文識別速度不低于2 000字/s。
8.4 版面還原度
8.4.1 應實現復雜版面的精確還原,采用分欄技術,智能分析中文(簡體、繁體)、英文字體,文、表、圖混排文本,識別后無需人工干預,自動還原排版。
8.4.2 識別后的文檔與原導入圖像版面還原度應達到90%以上。
DA/T 77-2019
9 檔案OCR成果的管理與應用
9.1 成果管理
9.1.1 應保持檔案OCR成果各組成要素對應的紙質檔案數字復制件、檔案目錄、元數據之間的邏輯層次和關聯關系。
9.1.2 以純文本形式保存的檔案OCR成果應使用檔號作為文件名,可在存儲載體中以檔號為基礎逐級建立層次文件夾單獨保存,也可與紙質檔案數字復制件統一保存。
9.1.3 支持全文檢索的雙層PDF或OFD文件可與對應的紙質檔案數字復制件統一存儲。數字檔案館(室)應用系統應記錄并維護不同文件版本之間的聯系。
9.1.4 檔案OCR成果文件管理權限應與紙質檔案數字復制件相同。
9.1.5 OCR成果應與紙質檔案數字復制件同步開展數據備份工作。
9.2 成果應用
9.2.1 檔案OCR成果應通過數字檔案館(室)應用系統實現全文檢索,提高檔案信息檢索效率。
9.2.2 可發揮檔案OCR成果提取的歸檔信息和黨政機關公文要素的作用,輔助開展檔案自動著錄、目錄質量核查,以及紙質檔案數字復制件掛接準確性核查等業務工作。
9.2.3 可利用檔案OCR成果,結合數據挖掘技術開展數據分析、知識管理、詞庫建設等工作。
DA/T 77-2019
附錄A
(規范性附錄)
公文要素OCR識別要求
公文要素OCR識別要求見表A.1。
表A.1 公文要素OCR識別要求
公文要素 |
是否識別 |
識別要求 |
1 正本 |
||
1.1 份號 |
否 |
- |
1.2 密級和保密期限 |
是 |
正常識別,識別成果輔助檔案著錄 |
1.3 緊急程度 |
是 |
正常識別,識別成果輔助檔案著錄 |
1.4 發文機關標志 |
否 |
一 |
1.5 發文字號 |
是 |
正常識別,識別成果輔助檔案著錄 |
1.6 簽發人 |
是 |
正常識別 |
1.7 標題 |
是 |
正常識別,去除軟回車,識別成果輔助檔案著錄 |
1.8 主送機關 |
是 |
正常識別,去除軟回車 |
1.9 正文 |
是 |
正常識別,去除軟回車,表格基本符合原貌,單元格內文字內容完整 |
1.10 附件說明 |
是 |
正常識別,去除軟回車 |
1.11發文機關署名 |
是 |
正常識別,自動拆分聯合發文機關,識別成果輔助檔案著錄 |
1.12成文日期 |
是 |
正常識別,識別成果輔助檔案著錄 |
1.13印章 |
否 |
一 |
1.14簽發人簽名章 |
否 |
一 |
1.15附注 |
是 |
正常識別,去除軟回車 |
1.16 附件 |
是 |
正常識別,去除軟回車,表格基本符合原貌,單元格內文字內容完整 |
1.17 抄送機關 |
是 |
正常識別,去除軟回車 |
1.18印發機關和印發日期 |
否 |
一 |
1.19 頁碼 |
否 |
一 |
2 文件處理單/發文稿紙 |
||
2.1 起草人 |
是 |
正常識別,手寫體自動學習提高識別效率,識別成果輔助檔案元數據記錄 |
2.2 簽發人 |
是 |
正常識別,手寫體自動學習提高識別效率,識別成果輔助檔案元數據記錄 |
2.3 起草時間 |
是 |
正常識別,識別成果輔助檔案元數據記錄 |
2.4簽發時間 |
是 |
正常識別,識別成果輔助檔案元數據記錄 |
2.5閱辦意見 |
是 |
正常識別,手寫體自動學習提高識別效率,識別成果輔助檔案元數據記錄 |
2.6 批辦意見 |
是 |
正常識別,手寫體自動學習提高識別效率,識別成果輔助檔案元數據記錄 |
2.7 辦理結果 |
是 |
正常識別,手寫體自動學習提高識別效率,識別成果輔助檔案元數據記錄 |