【问题标题】:Java API for web scraping or web mining [duplicate]用于网络抓取或网络挖掘的 Java API [重复]
【发布时间】:2011-03-09 18:29:25
【问题描述】:

我正在寻找一个好的 Java api 来进行网络抓取。我试过 WEB-Harvest api http://web-harvest.sourceforge.net/usage.php 但我认为它有点笨拙。 还有其他建议吗?

【问题讨论】:

标签: java api screen-scraping web-mining


【解决方案1】:

我在生产环境中使用 httpunit 来完成这项任务。

【讨论】:

    【解决方案2】:

    http://hc.apache.org/httpcomponents-client-ga/

    (Maven 依赖)

    <dependency>
      <groupId>commons-httpclient</groupId> 
      <artifactId>commons-httpclient</artifactId> 
      <version>3.1</version> 
    </dependency>
    

    【讨论】:

      【解决方案3】:

      我用这个:https://github.com/subes/invesdwin-webproxy

      它支持 HttpClient 和 HtmlUnit(支持 javascript 的无头浏览器)并在需要时通过大量代理将其并行化。我还可以推荐 JSoup 用于静态 html 处理。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2011-12-05
        • 1970-01-01
        • 2012-12-04
        • 2011-04-07
        • 2011-05-07
        • 2011-05-18
        相关资源
        最近更新 更多