【问题标题】:HTML Agility Pack or HTML Screen Scraping libraries for Java, Ruby, Python?用于 Java、Ruby、Python 的 HTML 敏捷包或 HTML 屏幕抓取库?
【发布时间】:2010-11-06 19:47:56
【问题描述】:

我发现HTML Agility Pack 对屏幕抓取网站非常有用且易于使用。在 Java、Ruby、Python 中用于 HTML 屏幕抓取的等效库是什么?

【问题讨论】:

    标签: java python html ruby screen-scraping


    【解决方案1】:

    找到了我要找的东西: Options for HTML scraping?

    【讨论】:

      【解决方案2】:

      BeautifulSoup 是标准的 Python 屏幕抓取工具。

      不过,最近我用了pyQuery(目前不完整),这或多或少是把jQuery改写成python,发现它非常有用。

      【讨论】:

      • 我还建议使用 Scrapy 作为强大的基础架构。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-03-20
      • 1970-01-01
      • 1970-01-01
      • 2011-01-26
      相关资源
      最近更新 更多