载入中
自定义HTML载入中... loading
超星电子图书文字识别方法谈 [转贴 2008-04-20 13:39:36]  删除... 
字体变小 字体变大


&<60;&<60;&<60; 超星数字图书馆资源丰富,超过30多万册的电子图书可供阅读和下载,特别是许多高校已经团体购买,像江苏省建立了几个镜像站点,为大家的工作、学习和科研提供了便利。使用超星数字图书过程中,不可避免有文字识别的需要,现介绍如下几种文字识别的方法。

&<60;1.超星自带的OCR识别

有读书卡的超星用户,可以使用超星3.9版本,其自带OCR识别功能;而高校集团用户,使用3.9版无法实现下载功能,只能使用3.8版阅读器。3.8版自身不具备OCR识别功能,超星网站提供了OCR识别模块,需另行下载安装。在安装时,需注意:先关闭超星阅读器,再运行OCR识别模块安装。

以某高校教材《普通物理学》第31页为例,利用超星自带OCR进行识别。直接点文字识别按钮,或点区域选择按钮,然后用鼠标选取图书中所需要的文字区域,如图1。前者直接弹出识别内容的小窗口,后者经过右键选择文字识别也弹出同样的窗口,如图2。显然,识别效果不理想,错误较多,也不方便校对;如图2(图中红圈标明了识别的错误处,系作者添加)。

2.利用超星抓图功能,借助尚书等OCR软件识别

打开同一本书,选取同一识别段落区域后右键另存为BMP格式的图片。再利用尚书识别软件打开保存的图片文件,如图3;进行自动文字识别,结果如图4,(图中蓝色为系统自动标识出可能错误的字,红圈则标明了识别错误之处)。与前面直接用超星OCR识别的结果比较,识别准确率提高不少。对于超星公司后期制作或扫描较清晰的图书,使用这种方法,纯文字识别率最高接近100%。

另外,尚书是一款专业OCR软件,其识别界面比较人性化,使用方便。上半部分是识别出来的文字,对识别不准确的文字自动用蓝色标识出来,下半界面同步逐行显示被识别的图片,且右下角界面提供其他可供替换的字,如图4。

&<60;3.利用Microsoft Office Document Imaging虚拟打印机“打印”成图片,再用其自身的OCR功能识别。

&<60;在电脑中安装Office2003时会在控制面板的“打印机和传真”中生成“Microsoft Office Document Image Writer”虚拟打印机。&<60;&<60;&<60;

首先将其随便改一个名字,我们将其改为“超星文字识别”。特别注意:最好不要含有Office、PDF、Microsoft、Acrobat等,因为超星会自动检测打印机名称,如果包含以上单词则拒绝打印。如图5,为修改前和修改后的情况。

用超星浏览器打开一本下载好的图书,选择“图书”-->“打印”,弹出“打印设置”窗口,设置打印页数和方式。可以根据需要进行恰当设置。

在弹出的“打印”窗口中,选择微软的虚拟打印机即“超星文字识别”,勾选“打印到文件”复选框,如图6。输出路径可以在“首选项”按钮的“高级”选项卡中设定。打印的生成的文件的扩展名是.mdi。

打印完成后,文件将自动打开。点击工具栏中word样的图标,弹出“将文本发送到WORD”窗口,直接确定,MS Office Document Imaging便开始执行文字识别功能,并将识别的内容写入与打印文件相同目录下的同名word文档,如图7。

文字识别执行完成后文档自动打开。这里打开的是一个网页文件,我们将其另存为.doc。生成的文件中有版面和文字识别错误的部分,可根据原文再作调整。

4.先将超星图书打印生成PDF格式再利用Acrobat另存为RTF文件,再在WORD中打开。

因为要安装庞大的ACROBAT,就不作详细介绍了。

这里仅是笔者的使用经验,以上几种方法各有所长,第一种方法简单,但有时候识别效果不能令人满意;第二种方法识别效率高且方便校对。后两种方法适用于整本书的识别,个人可根据自己需求和喜好选择合适的方法。

&<60;希望大家能如愿将超星图书中的文字识别出来。成功了可别忘记推荐给别人哟!

分类: 七嘴八舌
票数:
什么是“我顶”?
点击数:    评论数:
本文章引用通告地址(TrackBack Ping URL)为:
本文章尚未被引用。
发表评论
大 名:
(不填写则显示为匿名者)
网 址:
(您的网址,可以不填)
标 题:
内 容:
请根据下图中的字符输入验证码:
(您的评论将有可能审核后才能发表)
和讯个人门户 v1.0 | 和讯部落 | 客服中心