广州振越是政府密集架定点供应商,专业从事智能密集架、电动密集架、密集档案柜、智能档案密集架定制生产厂家。

index_06
ty

档案密集架纸质档案数字复制件光学字符识别(OCR)工作规范

文章出处:档案库房密集架厂家    人气:    发表时间:2021-05-05 09:44:22

1 范围

本标准规定了纸质档案数字复制件光学字符识别(OCR)工作的组织、实施和管理。

本标准适用于字迹清晰、文本规范的纸质档案数字复制件的光学字符识别(OCR)工作。

2 规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

DA/T13 档号编制规则

DA/T22 归档文件整理规则

DA/T31 纸质档案数字化规范

3 术语和定义

下列术语和定义适用于本文件。

3.1

字符 character

供组织、控制或表示数据用的元素集合中的一个元素。

[GB18030—2005,定义4.1]

3.2

字符集 characterset

多个字符的集合。

注:常见字符集有 ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。

3.3

光学字符识别 opticalcharacterrecognition;OCR

通过信息技术对图像文件中的字符形状进行识别、文字转换和文本输出、呈现的过程。

3.4

纸质档案数字复制件 digitalcopyofpaper-basedrecord纸质档案经过数字化加工过程后形成的,存储在磁带、磁盘、光盘等载体上并能被计算机等电子设备识别的数字图像。

档案库房密集架图

3.5 档案 OCR成果 OCRoutcomeofrecord

记录通过 OCR技术获取的纸质档案数字复制件文字内容的文件。

3DA/T77—2019

3.6

识别准确率 recognitionaccuracy

通过OCR技术识别正确字符的比率。注:识别准确率=(识别正确字符数/应识别字符总数)×100%

3.7

识别速度 recognitionspeed单位时间内通过 OCR技术识别字符的数量。

4 总则

4.1 档案 OCR应纳入数字档案馆(室)资源建设范畴,统筹规划、有序实施,逐步实现常态化。

4.2 档案 OCR应科学开展,有利于实现档案信息检索和计算机辅助编目、编研开发、数据挖掘。

4.3 档案 OCR应基于档案数字化工作,档案 OCR成果与纸质档案数字复制件之间应建立准确、可靠的关联关系。

4.4 应当釆取有效的管理和技术手段,加强档案 OCR的过程管理和质量控制,确保档案 OCR 过程规范、成果可靠、数据安全。

4.5 涉密纸质档案数字复制件的 OCR工作,应符合涉密档案相关的管理和技术要求。

5 工作组织

5.1 机构及人员

5.1.1 应建立档案 OCR工作机构,配备相应素质和技术水平的工作人员,组织开展档案 OCR 工作的统筹规划、组织实施、协调管理、技术保障、安全保障、监督检查、成果验收和长期保存等。档案 OCR 可与纸质档案数字化工作统筹配置工作机构和人员。

5.1.2 档案 OCR工作实行服务外包的,应从企业性质、股东组成、安全保密、企业规模、注册资金情况等方面严格审查档案 OCR服务供方的相关资质;从规章制度的建立健全程度等方面考查服务供方的管理能力,建立权责明确、覆盖工作全过程的监督机制和安全防范机制,确保档案信息安全。对外聘的工作人员,应进行安全审查,按规定进行保密教育。

5.2 流程控制

5.2.1 档案 OCR流程包括图像导入、图像预处理、比对识别、修改校正、成果整理输出五个业务环节。应依据相关技术标准,对档案 OCR全过程进行有效控制。

5.2.2 应加强对档案 OCR工作全流程的质量管理和安全管理,建立完善的质量、安全问题发现、修正机制,确保 OCR成果质量和档案信息安全。

5.3 工作文件与元数据

5.3.1 应建立档案 OCR工作方案、技术方案、工作审批材料、流程控制材料、数据验收材料、项目验收报告、成果移交材料等的管理工作文件,采取服务外包的还应包括项目招标文件、投标文件、中标通知书、项目合同、保密协议、操作规程、监管记录等,以加强对档案 OCR工作的管理。

库房密集架图

5.3.2 应参照相关标准,提出档案 OCR 工作流程中相关元数据设计、捕获、著录和管理的基本要求,与对应的纸质档案数字复制件管理过程元数据实施融合管理,并纳入数字档案馆(室)应用系统数据库。

4DA/T77—2019

6 方案制定

6.1 确定工作策略

6.1.1

文 OCR工作开展前,应当依据纸质档案数字复制件 OCR项目的计划、合同、招投标书等有关项目件,对 OCR工作的识别处理系统、网络系统、基础设施、保障能力等方面进行业务评价。

6.1.2 评价通过后,应根据以下因素,制定档案 OCR的工作策略:

———图像资源:符合导入标准的可识别的彩色(24bits)、灰度(256阶)和黑白二值图像。一般应为TIFF、BMP、JPG、PDF(图像)、OFD(图像)格式文件。

———OCR引擎:对图像包含文字进行高速度和高准确率识别的 OCR软件开发包。

———OCR软件:装备 OCR引擎的软件,可高速、准确输出识别成果,支持人工比对和校正。应根据需要识别的目标,按照项目资源的成本风险平衡原则确定 OCR 的范围、质量、效率、技术等要求。

———基础设施:支持系统运行的场所、设施和设备,包括 OCR 设备及工作间、介质的场外存放场所、备用的机房及辅助设施等。

———专业技术支持能力:对系统的运转提供支撑和综合保障的能力,以实现系统的预期目标。包括硬件、系统软件和应用软件的问题分析和处理能力,网络系统安全运行管理能力,沟通协调能力等。

———运行维护管理能力:保障系统相关的设备和软件正常运行,提供长期、及时、全面的技术支持的能力。包括运行环境管理、系统管理、安全管理和变更管理等。

———灾难恢复预案:对系统灾难实行快速、有效的响应和恢复。包括灾难紧急响应,灾后系统重建及重续运行,通信、后勤、技术等相关保障机制建设。

6.2 制定技术方案

6.2.1 应当根据确定的档案 OCR工作策略制定 OCR各工作系统技术方案,包含 OCR 的数据管理系统、OCR识别处理系统和网络系统。技术方案中所涉及的系统应满足如下条件:

———与档案管理系统相当的安全保护级别;

———具有可扩展性;

———对档案管理系统无明显可用性和性能影响。

6.2.2 为确保技术方案满足档案 OCR 工作策略的要求,应对技术方案进行确认和验证,并记录和保存验证及确认的成果。按照确认的 OCR软件技术方案进行开发,实现所要求的数据管理系统、OCR 识别处理系统和网络系统。

6.2.3 应按照经过确认的技术方案,制定 OCR 软件各阶段的系统安装及测试计划,以及支持不同关

键业务功能的系统安装及测试计划,并组织最终用户共同进行测试。确认以下各项功能可正确实现:

———对识别图像进行预处理;

———数据识别及校验;

———输出档案 OCR成果;

———数据安全管理。

密集架招标-广州振越
招投标服务
微信联系
qrc1
QQ咨询
振 越 集 团振 越 集 团
中央国家定点供应商
广东省/市定点供应商
支持招投标项目合作
密集架首选品牌

dt点击咨询

138-2629-3157