如何在 scrapy 中创建 webcrawler 以获取 .mp3 链接

【问题标题】：How to create a webcrawler in scrapy to fetch .mp3 links如何在 scrapy 中创建 webcrawler 以获取 .mp3 链接
【发布时间】：2017-01-24 08:22:10
【问题描述】：

我想制作一个可以从网站获取 .mp3 链接的网络爬虫。但是，示例站点 http://raagtune.net/ 中的内容是动态的。在这个站点中，内容是从 "http://raag.me//music/data/.. some random .mp3" 获取的，我们如何在 python 中使用 scrapy 抓取整个站点并获取所有 MP3 链接？或者有什么替代方法？

【问题讨论】：

标签： python python-2.7 web web-scraping web-crawler

【解决方案1】：

你可以使用beautifulsoup的python包。

import httplib2 from BeautifulSoup import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.nytimes.com') for link in BeautifulSoup(response, parseOnlyThese=SoupStrainer('a')): if link.has_attr('href'): print link['href']

只需检查该 URL 是否在该链接中包含 .mp3。如果是，将其存储在列表中，否则继续。

希望这会有所帮助！

【讨论】：