【问题标题】:how daily deals aggregators get data from different deals website?每日交易聚合器如何从不同的交易网站获取数据?
【发布时间】:2011-10-20 18:28:15
【问题描述】:

我想知道每日交易聚合器如何从不同的交易网站上抓取数据?我见过许多不提供 API 和 RSS 提要的交易网站,但这个聚合器仍然会从中删除数据。 这是我指的一些网站

http://www.thedealmap.com/

http://www.dealmandi.com/

【问题讨论】:

    标签: javascript python screen-scraping web-scraping


    【解决方案1】:

    如果网站不提供任何 API 或 RSS 提要,仍然可以通过查询信息所在的页面并从返回的 HTML 中提取数据,以“老式方式”从中提取数据。

    Python 中,可以使用urllib2requests 来查询页面,使用lxmlBeautifulSoup 从HTML 中提取数据。对于更大的项目,请尝试使用 scrapy 框架,它提供了编写复杂蜘蛛的一切。

    【讨论】:

    • 是的,但他们也为复杂的网站这样做吗?我见过一些使用帖子进行交流的网站
    • 是的,复杂的网站也可以。更多示例,这里有一个list of sites/companies,它使用scrapy从其他站点提取数据。
    【解决方案2】:

    当我构建 LesserThan - http://lesserthan.com - 我发现大多数 API 或 RSS 提要都未发布。只有在您注册会员帐户后,他们才会向您提供 RSS 提要的 URL。

    【讨论】:

      猜你喜欢
      • 2022-07-22
      • 1970-01-01
      • 1970-01-01
      • 2023-04-05
      • 1970-01-01
      • 2017-11-22
      • 2017-04-08
      • 2018-12-24
      • 1970-01-01
      相关资源
      最近更新 更多