【发布时间】:2011-03-10 00:50:03
【问题描述】:
我正在做一些数据抓取,我正在从 3 种类型的文件中抓取数据。
1- HTML
2- PDF
3- Excel(xls)
对于 HTML,我很舒服,我正在使用 HTML Agility。
对于 PDF 和 excel,我需要任何人的建议。
提前致谢。
【问题讨论】:
标签: excel pdf screen-scraping
我正在做一些数据抓取,我正在从 3 种类型的文件中抓取数据。
1- HTML
2- PDF
3- Excel(xls)
对于 HTML,我很舒服,我正在使用 HTML Agility。
对于 PDF 和 excel,我需要任何人的建议。
提前致谢。
【问题讨论】:
标签: excel pdf screen-scraping
关于 Excel。如果您在 MS 环境中,您可以执行 Office 自动化或使用 OLEDB。在 Java 环境中查看 Apache POI。
编辑:关于 Java 中的 PDF,请尝试 Apache PDFBox 。也可以使用 IKVM 在 .NET 中工作
【讨论】:
我可以推荐Cogniview's PDF2XL,这是一种相当便宜的商业产品,可以将PDF文件中的表格中的数据提取到Excel中。我们使用它取得了巨大的成功。
【讨论】:
HTML Agility 是一个库。它很好用。但是,为什么您需要单独的工具用于不同的数据提取目的?使用 Automation Anywhere 从任何来源提取数据。据我所知,它适用于您指定的所有三个来源。 谷歌一下。
【讨论】:
您可以使用UiPath 来实现此目的。它可以 100% 准确地抓取 PDF、Excel、HTML、Java、Windows、.NET、WPF、legacy。也适用于基于虚拟化的环境,但只能通过 OCR 抓取。
可以从代码 (SDK) 中使用,也可以使用 UiPath Studio 创建可视化自动化(工作流)。 这是web data extraction的教程
注意:我在 UiPath 工作,所以我知道它可以胜任这项工作。您还应该尝试其他可视化自动化工具,例如 Automation Anywhere、WinAutomation、Jacada,并排使用它们并选择最适合您的工具。
【讨论】: