
&<60;&<60;&<60; 超星数字图书馆资源丰富,超过30多万册的电子图书可供阅读和下载,特别是许多高校已经团体购买,像江苏省建立了几个镜像站点,为大家的工作、学习和科研提供了便利。使用超星数字图书过程中,不可避免有文字识别的需要,现介绍如下几种文字识别的方法。
&<60;1.超星自带的OCR识别
有读书卡的超星用户,可以使用超星3.9版本,其自带OCR识别功能;而高校集团用户,使用3.9版无法实现下载功能,只能使用3.8版阅读器。3.8版自身不具备OCR识别功能,超星网站提供了OCR识别模块,需另行下载安装。在安装时,需注意:先关闭超星阅读器,再运行OCR识别模块安装。
以某高校教材《普通物理学》第31页为例,利用超星自带OCR进行识别。直接点文字识别按钮,或点区域选择按钮,然后用鼠标选取图书中所需要的文字区域,如图1。前者直接弹出识别内容的小窗口,后者经过右键选择文字识别也弹出同样的窗口,如图2。显然,识别效果不理想,错误较多,也不方便校对;如图2(图中红圈标明了识别的错误处,系作者添加)。
2.利用超星抓图功能,借助尚书等OCR软件识别
打开同一本书,选取同一识别段落区域后右键另存为BMP格式的图片。再利用尚书识别软件打开保存的图片文件,如图3;进行自动文字识别,结果如图4,(图中蓝色为系统自动标识出可能错误的字,红圈则标明了识别错误之处)。与前面直接用超星OCR识别的结果比较,识别准确率提高不少。对于超星公司后期制作或扫描较清晰的图书,使用这种方法,纯文字识别率最高接近100%。
另外,尚书是一款专业OCR软件,其识别界面比较人性化,使用方便。上半部分是识别出来的文字,对识别不准确的文字自动用蓝色标识出来,下半界面同步逐行显示被识别的图片,且右下角界面提供其他可供替换的字,如图4。
&<60;3.利用Microsoft Office Document Imaging虚拟打印机“打印”成图片,再用其自身的OCR功能识别。
&<60;在电脑中安装Office2003时会在控制面板的“打印机和传真”中生成“Microsoft Office Document Image Writer”虚拟打印机。&<60;&<60;&<60;
首先将其随便改一个名字,我们将其改为“超星文字识别”。特别注意:最好不要含有Office、PDF、Microsoft、Acrobat等,因为超星会自动检测打印机名称,如果包含以上单词则拒绝打印。如图5,为修改前和修改后的情况。
用超星浏览器打开一本下载好的图书,选择“图书”-->“打印”,弹出“打印设置”窗口,设置打印页数和方式。可以根据需要进行恰当设置。
在弹出的“打印”窗口中,选择微软的虚拟打印机即“超星文字识别”,勾选“打印到文件”复选框,如图6。输出路径可以在“首选项”按钮的“高级”选项卡中设定。打印的生成的文件的扩展名是.mdi。
打印完成后,文件将自动打开。点击工具栏中word样的图标,弹出“将文本发送到WORD”窗口,直接确定,MS Office Document Imaging便开始执行文字识别功能,并将识别的内容写入与打印文件相同目录下的同名word文档,如图7。
文字识别执行完成后文档自动打开。这里打开的是一个网页文件,我们将其另存为.doc。生成的文件中有版面和文字识别错误的部分,可根据原文再作调整。
4.先将超星图书打印生成PDF格式再利用Acrobat另存为RTF文件,再在WORD中打开。
因为要安装庞大的ACROBAT,就不作详细介绍了。
这里仅是笔者的使用经验,以上几种方法各有所长,第一种方法简单,但有时候识别效果不能令人满意;第二种方法识别效率高且方便校对。后两种方法适用于整本书的识别,个人可根据自己需求和喜好选择合适的方法。
&<60;希望大家能如愿将超星图书中的文字识别出来。成功了可别忘记推荐给别人哟!

