从 PDF 和 Excel 中抓取数据 [关闭]答案

【问题标题】：Data Scraping from PDF and Excel [closed]从 PDF 和 Excel 中抓取数据 [关闭]
【发布时间】：2011-03-10 00:50:03
【问题描述】：

我正在做一些数据抓取，我正在从 3 种类型的文件中抓取数据。

1- HTML
2- PDF
3- Excel(xls)

对于 HTML，我很舒服，我正在使用 HTML Agility。

对于 PDF 和 excel，我需要任何人的建议。

提前致谢。

【问题讨论】：

【解决方案1】：

关于 Excel。如果您在 MS 环境中，您可以执行 Office 自动化或使用 OLEDB。在 Java 环境中查看 Apache POI。

编辑：关于 Java 中的 PDF，请尝试 Apache PDFBox 。也可以使用 IKVM 在 .NET 中工作

【讨论】：

【解决方案2】：

我可以推荐Cogniview's PDF2XL，这是一种相当便宜的商业产品，可以将PDF文件中的表格中的数据提取到Excel中。我们使用它取得了巨大的成功。

【讨论】：

【解决方案3】：

HTML Agility 是一个库。它很好用。但是，为什么您需要单独的工具用于不同的数据提取目的？使用 Automation Anywhere 从任何来源提取数据。据我所知，它适用于您指定的所有三个来源。谷歌一下。

【讨论】：

【解决方案4】：

您可以使用UiPath 来实现此目的。它可以 100% 准确地抓取 PDF、Excel、HTML、Java、Windows、.NET、WPF、legacy。也适用于基于虚拟化的环境，但只能通过 OCR 抓取。

可以从代码 (SDK) 中使用，也可以使用 UiPath Studio 创建可视化自动化（工作流）。这是web data extraction的教程

注意：我在 UiPath 工作，所以我知道它可以胜任这项工作。您还应该尝试其他可视化自动化工具，例如 Automation Anywhere、WinAutomation、Jacada，并排使用它们并选择最适合您的工具。

【讨论】：