【发布时间】:2011-10-20 18:28:15
【问题描述】:
我想知道每日交易聚合器如何从不同的交易网站上抓取数据?我见过许多不提供 API 和 RSS 提要的交易网站,但这个聚合器仍然会从中删除数据。 这是我指的一些网站
【问题讨论】:
标签: javascript python screen-scraping web-scraping
我想知道每日交易聚合器如何从不同的交易网站上抓取数据?我见过许多不提供 API 和 RSS 提要的交易网站,但这个聚合器仍然会从中删除数据。 这是我指的一些网站
【问题讨论】:
标签: javascript python screen-scraping web-scraping
如果网站不提供任何 API 或 RSS 提要,仍然可以通过查询信息所在的页面并从返回的 HTML 中提取数据,以“老式方式”从中提取数据。
在Python 中,可以使用urllib2 或requests 来查询页面,使用lxml 或BeautifulSoup 从HTML 中提取数据。对于更大的项目,请尝试使用 scrapy 框架,它提供了编写复杂蜘蛛的一切。
【讨论】:
scrapy从其他站点提取数据。
当我构建 LesserThan - http://lesserthan.com - 我发现大多数 API 或 RSS 提要都未发布。只有在您注册会员帐户后,他们才会向您提供 RSS 提要的 URL。
【讨论】: