| 经销商管理: |
|
|
|
|
| 产品类别: |
|
|
 |
输入系列 |
|
|
 |
存储系列 |
|
 |
杀毒软件系列 |
|
|
 |
政府行业供货系列 |
|
|
| |
|
|
| 垂询热线: |
|
|
0791-6252081 6201865
QQ:455147498
|
|
|
| 服务信箱: |
|
|
|
|
|
 |
|
|
| 友情链接: |
|
|
|
|
| 4OCR识别软件 |
| “汉王标准印刷体OCR SDK”在数字图书馆系统中的集成应用 |
| |
随着信息化时代的到来,作为公共信息和教育服务体系重要组成部分的数字图书馆受到越来越多国家的重视。美国最早开始了在数字图书馆方面的理论研究和建设。1991年俄亥俄州政府投资建立州内图书馆网络中心,开始了数字图书馆的尝试。1994年6月,在德克萨斯召开了以“数字图书馆理论与实践”为主题的第一次数字图书馆的理论研究会议。同年9月,美国国家科学基金会(NSF)、国家宇航局(NASA)和国防部高级研究署(AKPA)联合发布《数字图书馆启动计划》,领导、组织和资助美国的数字图书馆研究和开发。继美国之后,英、法、德、日等国也相继提出各自的数字图书馆计划。1995年2月25~26日,在比利时布鲁塞尔召开了全球信息社会研讨会上,大会确立“全球数字图书馆计划”与“数字博物馆计划”为全球信息社会化的两个重要组成部分。
在中国,数字图书馆建设也已纳入国家的发展战略。1999年6月中国数字图书馆发展战略组、中科院计算所等单位联合主办了“99数字图书馆论坛”。2002年5月中华人民共和国信息产业部、中国数字图书馆等8家单位联合主办“2002年数字图书馆国际论坛”。除了理论研究和思想认识,中国目前已启动了一些工程项目,进入了数字图书馆的建设阶段,例如中国高等教育文献保障体系CALIS、中国国家科学数字图书馆工程及中国国家数字图书馆工程等。
所谓“数字图书馆” 就是将现有图书馆中的各种文献转换成数字信息并通过网络发布和传输,同时采集、加工各种公共信息为全社会提供优质的信息服务和决策咨询。在我国,数字图书馆建设目前的主要工作还是对现有文献的数字化。
中国拥有上下五千年的文明历史,浩如烟海的文化典藏是中国千年文化积淀的瑰宝,它维系着中华传统文明的进步与传承,是中华民族向世界贡献的宝贵财富!人类社会进入到信息化时代后,通过使文化典籍的数字化和上网,中华民族优秀文明实现了由纸张等介质流传方式向数字信息等现代传播方式转变的过程,是对传统的中华文化传播和继承方式的重大革命。
毋庸置疑,在这场史无前例的大革命中,OCR技术发挥着不可替代的作用。一方面,数字加工商利用OCR技术取代传统的手工录入方式,极大地加快了中华民族文化典藏数字化的进程;另一方面,读者利用OCR技术实现对所需数字图书馆中相关馆藏资料的方便下载,使中华民族文化典藏得以广泛应用。
一、“汉王OCR技术”在典藏录入加工中的应用: 如何将中国千年的文化典藏数字化,是数字图书馆要解决的首要问题。中国的数字图书馆大多仍采用传统的手工录入方式,以每人2-3万字/班次(按日工作时间为8小时计算)的录入速度来应对浩如烟海的文化典藏无疑是杯水车薪,多少显得有些不切实际,寻求新的录入方式迫在眉睫!
鉴于此,汉王公司在多年从事OCR技术研究的基础上,推出了“汉王标准印刷体OCR SDK开发工具包”这种新的技术提供模式。用户可以将“汉王标准印刷体OCR SDK开发工具包”方便集成至各图书馆现有成熟系统中,与图书馆原有系统共同使用,发挥其高速录入功能,从而实现OCR技术在数字图书馆领域中的应用。
以下是“汉王OCR技术” 在数字图书馆系统中的应用流程图:
 OCR技术通过与高速扫描仪的有机集成,有效解决了数字图书馆的海量录入问题。实际应用表明,OCR较之人工录入表现出明显的优势,不仅录入速度大为提高(OCR录入速度比人工录入速度提高5-8倍),而且整体差错率得到了有效的控制(控制在万分之五以内),尤其是在古籍录入方面,OCR技术具有绝对优势:
古籍汉字中繁体字、异体字占绝对多数。随着时代的变迁,繁体字、异体字已经被简体汉字所取代,人们在日常生活中所能接触到的繁体字、异体字为数甚少,许多古代繁体字、异体字已经被人们遗忘,不能辨识,古代文字的复杂性无疑是古籍手工录入过程中遇到的最大难题(如下)。
簡體---繁體關係: 简/簡
正體---異體關係: 修/俢 兔/兎 刃/刄
正字---訛(譌)字:久/乆 派/泒 叐/犮
通假---被通假: 詳/佯
古今字: 镸/長
新舊字形: 青/靑 説/說 媪/媼
中日: 卖/売 图/図 单/単
形近異義字: 义/叉 刺/剌 諫/諌
避諱字: 弘/ 玄/ 燁/ 胤/ 禛/
汉王公司所提供的“汉王标准印刷体OCR SDK开发工具包”中包含大字符集,可以支持简繁混排识别国标GB2312-80的全部二级汉字,简繁混识不但能识别6700多个简体汉字,还可识别台湾的繁体5401字以及香港繁体字。OCR技术在数字图书馆中数据加工过程中的应用,使加工人员从繁重的手工录入工作中解脱出来,将工作重点转向文字校对方面。
如何在大规模古籍数字化的过程中实现高效率、高质量、低成本的文字校对,确保数据质量,这是数字图书馆系统面临的一个新课题。
传统的校对方式是校对者在清样与原稿之间反复比较,查错改错。校对过程既要依据纸载体原稿,还要产生大量纸张清样。校对过程是校对者的视觉在清样与底稿之间反复频繁转换,极易疲劳,产生疏漏。而且在初校以后的复校中,校对者还要面对已校改的内容(无论正确与否)再次核审,费时费力。况且随着时代的变迁,现在若想聘请一大批懂得古籍文字的人员投入校对工作几乎是不可能的。而汉王公司提供的“汉王标准印刷体OCR SDK开发工具包”集成于数字图书馆自身系统之中,其校对作业在屏幕上进行:通过OCR可以建立图-文之间形影不离的一一对应关系,将古籍原稿的电子影像和经OCR技术识别后的数码化文字对照比较,使校对工作实现无纸化,辅助具有一般中等文化水平的年轻人完成大规模古籍文字的校对任务,取得了令人满意的效果。
二、“汉王OCR技术”在读者浏览器中的应用: 网络是一个浩瀚的海洋,充分利用网络上无穷丰富的资源是广大用户的共同心愿。但在资源利用过程中,用户往往会面临这样的尴尬:即这些资源并非都是以通用的格式存在。因为对于所有资源提供单位来讲,对独有资源进行行之有效的保护是非常必要的!为了能够使自身的独有资源得到保护,各家资源提供单位均以不同的、独立的文件格式将数据资源发布在网上。读者如果没有得到认可,是不能够将所查阅的资料进行保存的。为使此问题得到合理的解决,各家资源提供单位通过向OCR技术提供商申请OCR技术的使用授权,将OCR技术捆绑于浏览器之中,通过这种方式可将各家上载在网络上的不同格式的文件进行识别后,保存为通用的文档格式,例如:TXT、RTF等。OCR技术为读者提供“足不出户,遍读天下书”的机会。
北京世纪超星公司和重庆维普资讯公司多年来一直与汉王公司保持着良好的合作关系, “汉王OCR技术”集成在浏览器产品中,为两家公司的软件增值服务做出贡献。(下面为两家公司应用“汉王OCR技术”有关例证)
1、北京世纪超星公司: 图一为该公司的浏览器界面,界面中显示的全文数据为图像文件,不能够直接下载保存。通过“汉王OCR技术”,实现了用户对图像上所需文字的部分识别、保存(见图二)。
 
2、重庆维普资讯公司 
 |
| |
|
|