【问题标题】:Data Scraping from PDF and Excel [closed]从 PDF 和 Excel 中抓取数据 [关闭]
【发布时间】:2011-03-10 00:50:03
【问题描述】:

我正在做一些数据抓取,我正在从 3 种类型的文件中抓取数据。

1- HTML
2- PDF
3- Excel(xls)

对于 HTML,我很舒服,我正在使用 HTML Agility。

对于 PDF 和 excel,我需要任何人的建议。

提前致谢。

【问题讨论】:

    标签: excel pdf screen-scraping


    【解决方案1】:

    关于 Excel。如果您在 MS 环境中,您可以执行 Office 自动化或使用 OLEDB。在 Java 环境中查看 Apache POI。

    编辑:关于 Java 中的 PDF,请尝试 Apache PDFBox 。也可以使用 IKVM 在 .NET 中工作

    【讨论】:

    • 如果更喜欢 Java/Groovy 解决方案,绝对推荐 POI。 Perl 也有一些非常好的用于电子表格和 PDF 的 API
    【解决方案2】:

    我可以推荐Cogniview's PDF2XL,这是一种相当便宜的商业产品,可以将PDF文件中的表格中的数据提取到Excel中。我们使用它取得了巨大的成功。

    【讨论】:

      【解决方案3】:

      HTML Agility 是一个库。它很好用。但是,为什么您需要单独的工具用于不同的数据提取目的?使用 Automation Anywhere 从任何来源提取数据。据我所知,它适用于您指定的所有三个来源。 谷歌一下。

      【讨论】:

        【解决方案4】:

        您可以使用UiPath 来实现此目的。它可以 100% 准确地抓取 PDF、Excel、HTML、Java、Windows、.NET、WPF、legacy。也适用于基于虚拟化的环境,但只能通过 OCR 抓取。

        可以从代码 (SDK) 中使用,也可以使用 UiPath Studio 创建可视化自动化(工作流)。 这是web data extraction的教程

        注意:我在 UiPath 工作,所以我知道它可以胜任这项工作。您还应该尝试其他可视化自动化工具,例如 Automation Anywhere、WinAutomation、Jacada,并排使用它们并选择最适合您的工具。

        【讨论】:

          猜你喜欢
          • 2015-07-04
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2021-09-16
          • 1970-01-01
          • 2023-03-23
          • 2021-08-07
          • 1970-01-01
          相关资源
          最近更新 更多