【发布时间】:2015-04-13 20:34:40
【问题描述】:
我有一个包含 1900 多个 GIF 图像链接条目的 CSV 文件。
每张图片都包含一个电子邮件地址。
我想以编程方式读取每个条目并将它们转换为相应的文本,最好是在另一个或相同的 CSV 文件中。我使用 Mac OS 并且更喜欢使用 Python 或 Java 来完成此任务。
知道如何使用 OCR 或通过任何其他方法进行操作吗?示例代码将不胜感激。
我已尝试将 tesseract 用于示例条目,但结果不准确。这是我尝试过的:
$ tesseract email.gif out
email.gif 看起来像:
greentours2010@yahoo.com
out.txt中生成的输出为:
gveen|L7uvs2fl1fl@yahLm cum
CSV 文件如下所示(前 2 个条目):
这是我在 SO 中的第一个问题。如果我错过了任何其他相关信息,我们深表歉意。我很乐意提供更多。
【问题讨论】:
-
到目前为止你尝试了什么,到目前为止你的结果是什么?所有图像是否具有相同的字体和字体大小?您的问题感兴趣的 CSV 格式如何?你想用python吗?要求人们在不提供任何内容的情况下为您提供电子邮件抓取工具的示例代码有点过分。我不是-1。
-
找不到网址404错误
标签: csv image-processing ocr tesseract python-tesseract