每日交易聚合器如何从不同的交易网站获取数据？答案

【问题标题】：how daily deals aggregators get data from different deals website?每日交易聚合器如何从不同的交易网站获取数据？
【发布时间】：2011-10-20 18:28:15
【问题描述】：

我想知道每日交易聚合器如何从不同的交易网站上抓取数据？我见过许多不提供 API 和 RSS 提要的交易网站，但这个聚合器仍然会从中删除数据。这是我指的一些网站

【问题讨论】：

【解决方案1】：

如果网站不提供任何 API 或 RSS 提要，仍然可以通过查询信息所在的页面并从返回的 HTML 中提取数据，以“老式方式”从中提取数据。

在Python 中，可以使用urllib2 或requests 来查询页面，使用lxml 或BeautifulSoup 从HTML 中提取数据。对于更大的项目，请尝试使用 scrapy 框架，它提供了编写复杂蜘蛛的一切。

【讨论】：

【解决方案2】：

当我构建 LesserThan - http://lesserthan.com - 我发现大多数 API 或 RSS 提要都未发布。只有在您注册会员帐户后，他们才会向您提供 RSS 提要的 URL。

【讨论】：