ICS 35.240
CCS L 67
37
山东省 地方标准
DB37/T 4648—2023
公共数据 历史数据数字化工作指南
Public data —Guidelines for historical data digitization
2023- 08 - 31发布 2023- 09 - 30实施
山东省市场监督管理局 发布
DB37/T 4648 —2023
I 目次
前言 ................................ ................................ ................. II
1 范围 ................................ ................................ ............... 1
2 规范性引用文件 ................................ ................................ ..... 1
3 术语和定义 ................................ ................................ ......... 1
4 缩略语 ................................ ................................ ............. 1
5 工作流程 ................................ ................................ ........... 2
6 总体计划 ................................ ................................ ........... 2
7 数据调研分析 ................................ ................................ ....... 2
8 历史数据借阅 ................................ ................................ ....... 2
9 数据结构化 ................................ ................................ ......... 2
概述 ................................ ................................ ........... 2 9.1
扫描识别 ................................ ................................ ....... 2 9.2
手工录入 ................................ ................................ ....... 3 9.3
10 数据校对 ................................ ................................ .......... 3
11 数据存储归档 ................................ ................................ ...... 4
数据存储 ................................ ................................ ...... 4 11.1
历史数据归档 ................................ ................................ .. 4 11.2
参考文献 ................................ ................................ .............. 5
DB37/T 4648 —2023
II 前言
本文件按照 GB/T 1.1 —2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由山东省大数据局提出、归口并组织实施。
DB37/T 4648 —2023
1
公共数据 历史数据数字化工作指南
1 范围
本文件给出了文本资源历史数据数字化 的指导和建议。
本文件适用于各级公共管理和服务机构文本资源历史数据数字化的规划、实施和管理。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。 其中, 注日期的引用文件,
仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本
文件。
GB/T 31219.2 —2014 图书馆馆藏资源数字化加工规范 第2部分:文本资源
DB37/T 4646.2—2023 公共数据 数据治理规范 第2部分:数据清洗比对
3 术语和定义
下列术语和定义适用于本文件。
3.1
文本 text
以字符、符号、词、短语、段落、句子、表格或者其他字符排列形成的数据,用于表达意义,其解
释基本上取决于读者对于某种自然语言或者人工语言的知识。
[来源:GB/T 4894 —2009,4.1.1.2.4]
3.2
数字图像 digital image
表示实物图像的整数阵列,一个二维或更高维的采样并量化的 函数,由相同维数的连续图像产生。
[来源:DA/T 31—2017,3.2]
3.3
归档 filing
办理完毕且具有保存价值的文件经系统整理交档案室或档案馆保存的过程。
[来源:DA/T 1—2000,3.1.1]
4 缩略语
下列缩略语适用于本文件。
DPI:每英寸点数 (Dots Per Inch)
JPEG:联合图像专家组 (Joint Photographic Experts Group )
OCR:光学字符识别( Optical Character Recognition )
OFD:开放版式文档 (Open Fixed-layout Document)
PDF:可携带文档格式( Portable Document Format )
TIFF:标签图像文件格式( Tag Image File Format )
DB37/T 4648 —2023
2 5 工作流程
历史数据 数字化流程包括总体计划 、数据调研分析 、历史数据借阅、数据 结构化、数据校对、数据
存储归档 ,见图1。
总体计划数据调研
分析扫描识别数据结构化
开始手工
录入数据
校对结束数据存储
归档历史数据
借阅
图1 历史数据数字化流程
6 总体计划
宜综合考虑本机构实际业务工作情况、 文本资源历史数据的利用率、 共享和开放程度、 价值等因素,
制定历史数据数字化总体 计划并形成工作方案,包括工作目标、工作原则、历史数据范围、组织保障、
管理制度、人员安排及责任分工、进度安排、工作流程等。采取外包方式实施时,承担历史数据数字化
工作的机构和人员遵守相关信息保密规定,并签订保密协议。
7 数据调研分析
依据工作方案,调研分析本机构文本资源历史数据现状,包括数据内容、数据分布情况、数据存储
介质、存储地点、数字化程度、数据量、数据质量状况、纸质形态,以及历史数据存储管理过程中存在
的问题等。
8 历史数据借阅
宜结合数据调研分析情况 ,按照历史数据借阅相关要求开展历史数据调取 、清点、登记等准备工作 ,
并提交历史数据借阅申请 ,审批通过后 借阅并按规定存放历史数据 ,根据历史数据的价值、可识别程度
等选取数据结构化方式。
9 数据结构化
概述 9.1
数据结构化方式主要包括:
a) 扫描识别:适合处理文字规整、版面清晰的历史数据;
b) 手工录入:适合处理字体过小、图文模糊、版面复杂、准确度要求较高和文档价值较高的历
史数据,如手写数据、准确度要求高的证件数据、无法被扫描的高价值档案等。
扫描识别 9.2
9.2.1 扫描
以扫描方式对历史数据进行处理时宜满足:
DB37/T 4648 —2023
3 a) 扫描设备 :根据数据规模、尺寸和形状、存储条件等选择 扫描设备 ,历史数据尺寸较大时,
可使用拍照设备对历史数据分块拍摄,将拍摄的数字图像拼接并存储;
b) 扫描色彩模式:根据历史数据是否有红头、印章、照片、插图、多色彩文字,以及页面颜色
是否为彩色、字迹是否清晰等情况选择扫描色彩模式,包括彩色模式、黑白二值模式、灰度
模式等;
c) 扫描参数:设置并调整扫描参数,以保证扫描后形成的文件清晰、完整、不失真,如文本资
源文字偏小、密集或清晰度较差时,扫描分辨率宜大于 300DPI;
d) 扫描格式:扫描文件宜使用通用格式,如 TIFF、JPEG等,也可从浏览速度、
DB37-T 4648—2023 公共数据 历史数据数字化工作指南 山东省
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2023-09-09 13:26:14上传分享