【发布时间】:2012-07-24 04:36:03
【问题描述】:
有人可以为以下场景提出解决方案吗?
我们有餐厅的菜单。每家餐厅都有自己的菜单。目标是识别菜单中的元素,例如菜单项、配料、价格等,并更新数据库。
Fox 示例:餐厅菜单可以在名为“Sandwiches”的组下包含“Chicken”、“Vegetarian”等菜单项。
为此,我计划使用 OCR 的 Java 实现。这会成功吗?
【问题讨论】:
-
您是否已经拥有正确的 PDF 格式的文档?如果是这样,您可以使用 PDFBox 之类的东西来解析信息。如果您确实需要扫描图像,它会复杂得多,而且我不熟悉用于此的 java 实现。但是为了处理带有文本和对象的 PDF 文档,我一直在使用 PDFBox。 PDFClown 我也用在我需要扫描大部分页面的场景中,可能是您想要查看的其他内容。
-
这是现有项目还是新项目?
-
PDF 是餐厅菜单的精确扫描件。