汉字识别技术(简称OCR)可以理解为是让计算机认字的技术。它通过光电信号转换,即文本数据。 ? 一、汉字识别技术的应用价值? 汉字识别技术的应用价值主要体现在两个方面: ? 一方面,把纸质档案上的固定信息变成可以被检索利用的活信息,为文本数据管理技术提供 丰富的数据源。 ? 汉字识别后生成的文本数据应该说,它是一种新型的档案一次信息的复制品或编研开发成果 。但作为一种新型的复制品或编研开发成果,因其生成的目的不同,又具有两种不同的属性 :当以提供利用为目的通过汉字识别建立文本数据库时,其文本数据具有类似于汇编类档案 编研成果的属性;当以编辑出版纸质的档案编研材料如大事记、组织机构沿革、文件汇编等 为目的进行汉字识别时,其文本数据不仅具有类似于档案编研成果的属性,而且具有档案原 始性的基本属性,因为它们是印刷品或出版物的本源信息。 ? 汉字识别技术在档案管理工作中的应用,根据其目前的技术水平主要适用于近几十年来印刷 汉字档案内容的识别,图像、文本数据的形成、存储和目录数据的录入等项工作。主要的应 用方式有: ? (一)利用者阅读纸质档案的内容之后,对其所需要的内容进行扫描和汉字识别,或打印出统 一格式的利用摘录,或直接提供文本拷贝。 这种利用方式的优点主要有: 1?方便用户,可减少信息利用过程中的重复劳动; 2?不给档 案人员增加建库的工作负担; 3?节省建库所需的经费开支。其缺点主要有: 1?不能为全文 检索提供数据,实现深层次开发档案信息资源的目的; 2?存在对同一档案内容重复进行扫 描和汉字识别的可能性。 ? (二)输入档案目录。这是加快档案目录信息数据库建设的一条新路,能够使更多的人员从事输入工作,但输入速度不甚理想,而且成本费用相对较高。 ? (三)扫描、保存图像并提供利用,只针对利用者需要的图像内容进行汉字识别等利用服务。 ? 这种方式必须在已有文件目录的前提下使用。其优点主要有:1?具有提供原件和提高信息 利用效率的双重优势;2?档案人员不承担汉字识别后生成的文本数据的维护工作。其缺点 主要有:1?同第一种利用方式的缺点。2?汉字识别技术要求图像的光学分辨率较高,一般为3000dpi,而一般图像的分辨率仅为150dpi,因此所需的存储空间较大,约是一般图像的2 、3倍,那么,所需的存储成本也要高得多。这种高代价的图像存储仅用来满足用户利用识 别的需要似乎有点得不偿失。因此低分辨率的图像也能进行汉字识别,只是识别率相对较低 而已。我们也曾做过对比实验,同一页印刷质量良好的B5纸型文件约500字,以300dpi进行扫描,识别率为100%;以150dpi进行扫描,识别率为99.4%(误识3字)。这对于一般用户而言无所谓的。 ? (四)建立文本数据库。这种方式也应在已有文件目录的条件下使用。其优点主要有: 1?节省存储空间和存储成本。仍以一页B5型纸约500汉字的文件为例,以文本方式存储约需1000字节;以图像方式存储约需25000字节。因此,同量汉字的文本方式存储比图像方式存储成本低得多。 2?为全文检索提供数据,能够实现深层次开发利用档案信息资源的目的。 其缺点主要有: 1?建立文本数据库的工作量较大。 2?不能满足用户阅读档案原件的需求。 3? 由于没有图像随时提供依据,不便于对文本数据的准确性进行核实。 ? (五)输入目录并保存图像。 ? (六)输入目录、建立文本数据库。 ? (七)保存图像、建立文本件数据。 ? (八)输入目录、保存图像并建立文本数据库。 ? 这是充分发挥OCR软件功能,深层次开发利用档案信息资源的应用方式。但工程量较大,人力、资金需求较多,建库周期较长。 用方式,但无论使用哪一 种方式,都必须符合本单位档案管理工作的实际,统筹考虑档案状况、人员配备、经费能力、办公自动化水平、档案现代化建设发展规划等方面的因素,以切实提高档案信息资源开发利用能力为目的,这样才能收到事半功倍的效果。 |