【发布时间】:2010-09-30 04:34:24
【问题描述】:
我需要筛选从网站上抓取一些数据,因为无法通过他们的网络服务获得这些数据。当我以前需要这样做时,我自己使用 Apache 的 HTTP 客户端库编写了 Java 代码,以进行相关的 HTTP 调用来下载数据。我通过在浏览器中单击相关屏幕并使用Charles web proxy 记录相应的 HTTP 调用来找出我需要进行的相关调用。
正如您可以想象的那样,这是一个相当乏味的过程,我想知道是否有一个工具可以实际生成与浏览器会话相对应的 Java 代码。我希望生成的代码不会像手动编写的代码那样漂亮,但我总是可以在之后整理它。有谁知道这样的工具是否存在? Selenium 是我知道的一种可能性,但我不确定它是否支持这个确切的用例。
谢谢, 唐
【问题讨论】:
标签: java http selenium screen-scraping