【问题标题】:How to create a webcrawler in scrapy to fetch .mp3 links如何在 scrapy 中创建 webcrawler 以获取 .mp3 链接
【发布时间】:2017-01-24 08:22:10
【问题描述】:

我想制作一个可以从网站获取 .mp3 链接的网络爬虫。但是,示例站点 http://raagtune.net/ 中的内容是动态的。在这个站点中,内容是从 "http://raag.me//music/data/.. some random .mp3" 获取的,我们如何在 python 中使用 scrapy 抓取整个站点并获取所有 MP3 链接?或者有什么替代方法?

【问题讨论】:

    标签: python python-2.7 web web-scraping web-crawler


    【解决方案1】:

    你可以使用beautifulsoup的python包。

    import httplib2 from BeautifulSoup import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.nytimes.com') for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer('a')): if link.has_attr('href'): print link['href']

    只需检查该 URL 是否在该链接中包含 .mp3。如果是,将其存储在列表中,否则继续。

    希望这会有所帮助!

    【讨论】:

      猜你喜欢
      • 2018-12-10
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-09-10
      • 2015-08-13
      • 1970-01-01
      • 2016-06-02
      相关资源
      最近更新 更多