数据录入工厂特色
识别核心
软件内置文通科技最新研发的高性能文字识别引擎,支持中英日韩四国文字以及对英文的混排,识别率达99.8%以上。
Unicode编码
采用UNICODE国际编码标准。系统可在一个统一的平台下,同时处理包括中文、日文、韩文、英文在内的多种文字的识别和校对修改。
校对方式灵活准确
在横向校对的基础上,提供纵向校对进行校对辅助,尽可能的让校对高效率,文字正确率更高
导出格式多样灵活,支持PDF、TXT、WORD、XLS等格式
多种应用模式:该软件即可独立作为数据加工软件使用,也可以针对档案、文档、全文检索系统做接口;
脱机批量导入:该软件配套的Image To PDF的批量识别转换功能,可以实现自动监视文件夹,并直接对导入文件批量识别转换问pdf格式的文件,适应无人操作工作模式。
集字校对器:该软件配套的集字校对器,可以实现集字校对(即纵向校对)的模式,改变传统的校对模式,避免校对人员陷入文字情节中,增加了校对正确率。
画框识别:功能允许用户只识别手工编辑修改过的或新增加的区域,而保留其他已经完成校对的文字区域,为用户使用提供最大的灵活性与方便性。
自学功能:针对古籍、科研等特殊领域文档中经常出现的特殊文字,即使不在国家标准范围以内或者TH-OCR字库中并没有支持,用户也可通过自学习功能,将这些文字的图像学习进入系统,使得调整后的核心可以支持这些文字的识别。
版面还原:强大的版面还原技术,可将识别后的报刊、杂志、图书等多种形式的文档,通过还原字体、字号、版面位置、字体颜色等信息以原版原式呈现在读者面前,最终生成优质的全息PDF文档。
Image to PDF批量转换工具
在2013安装目录下,提供了Image to PDF的批量转换工具,可以实现扫描、识别、转换、导出文件自动流程化的工作,可以做到人机分离,节约人力操作成本的目的。
文通TH-OCR2013数据录入工厂功能介绍
图片导入:文通TH-OCR2013数据录入工厂支持扫描导入和本地文件导入两种方式来导入要识别的图片信息;同时可以在导入后通过本软件对图像文件进行处理,以达到更好的识别效果。
图像处理
翻转
对扫描结果和导入图片,进行顺时针90度翻转,可以对颠倒、翻转的图片进行回复向上,使图像识别效果更佳完美。
裁切
由于图像在拍摄等捕获方式中,会出现有效图像信息边缘出现冗余图像部分,可以通过裁切,确保获得的都是有效图像信息。
抹白
当扫描一些古典书籍,由于纸张久远,且书本有一定厚度的时候,常常会出现黑边或者其它一些杂点,启用抹白功能可以大大优化图像的效果。
倾斜校正
在文件自动扫描过程中,扫描文件经常会出现倾斜情况,自动倾斜校正功能可以将倾斜(15°以内为佳)的图像自动矫正,使原件调整到整齐的位置,使扫描的文档更加完美;对于大于15°的倾斜图像,可以用手动校正功能,对图像进行任意角度的倾斜校正。
识别区域顺序调整
对于报刊,杂志等排版顺序不是简单的从上而下,或从左至右的情况;可以手动调整识别区域的顺序,以达到正确时文章顺序,使得导出的文本信息有章有序。
区域识别顺序视图
添加表格线
对于文档中出现的表格线,由于扫描时不清晰的原因,或者为了达到方便识别的目的,可以手动的添加绘制表格线,使得最终文件表格被更好的识别,从而达到直接导出完美的excel表格。
文章划分
对于报纸、杂志、期刊等文件,当图片中出现对各文章并存,且分部不是标准矩形,可以通过文章划分,将版面划分为多个可自由拓展的多边形文本框。
自学习功能
对于字库之外的生僻字,或者部分样本中的长错字,可以通过自动学习功能,将字符加入软件字库,“教会”软件新的汉字。
用户自学习功能视图
遗漏检测
在图像识别之后,通过遗漏检测,软件会给出图像中未被分析识别的图像部分,以防止漏识。
画框建字
在图像识别后,通过画框建字,创建单个区域内的单字识别,避免由于换行等原因造成的个别字误识、错识。
版面分析
可以对档案、图书、公文、报纸等进行自动版面分析。将版面分为横排文本(蓝色框线)、竖排文本(红色框线)、图像(绿色框线)、表格(紫色框线)四种类型。用户也可以根据需求,进行手动版面分析;同时将文本信息按照语言划分语言种类,包括中文,英文,日文,韩文。
版面分析
校对
横向校对
在识别结果区域中,系统会首先判断出可疑字并标出。通过人工逐字逐句比较识别结果与原始图像,找到错误的地方并修改。
浮动跟踪条可以提高横向校对的速度,它是将识别的原始图像块跟踪显示在识别结果上,使识别结果与原始图像一一对应的显示,并且可以根据使用者习惯改变浮动条前景色和背景色、以及可疑字颜色。直观、方便、快捷。
横向校对视图
集字校对(纵向校对)
1.查错率高,集字校对编辑器把识别结果相同的文字对应的图像显示在一起。由于少数错误的字与大量正确的字有差别,可以比较容易地发现错字,不易漏掉错误。
2.集字校对编辑器重新组织文字顺序,不会使校对人员陷入到识别文字的故事情节中。
3.校对效率高,不易疲劳。
4.把集字校对的结果与传统方法校对的结果进行比较、综合,就能得到最高的查错和纠错效果,得到尽可能低的错误率和最好的最终结果。
集字校对视图
文件导出
识别、校对过程结束后,可以根据用户需求的不同,导出不同格式的文件,包括rtf格式、xls格式、txt格式已经双层PDF、图像PDF、文本PDF等文件。
导出页面视图
版面还原功能
2013在导出.rtf格式的word文件时,提供了版面还原功能,该功能为了方便用户在word中排版,最大程度上的按照原文件的格式对文字进行重新排版,而不是简单的文本文字。
在一些杂志、期刊、报纸等的浏览上更加符合用户要求,能够完整的体现出文件原貌。
Image to PDF转换工具
2013数据录入工厂中提供了Image to PDF批量转换功能,可以直接将扫描文件通过自动扫描识别等流程,批量转换为PDF格式文件。
同时,此过程支持监视文件夹的功能,可以对文件夹中新进入的文件,直接进行OCR识别处理,省去了大量人工操作的时间,实现人机分离,节约人力和时间成本。
答疑:见账号呢