【发布时间】:2017-10-14 06:03:50
【问题描述】:
我用来抓取内容的代码
class Scraper(object):
# contains methods to scrape data from curse
def scrape(url):
req = request.Request(url, headers={"User-Agent": "Mozilla/5.0"})
return request.urlopen(req).read()
def lookup(page, tag, class_name):
parsed = BeautifulSoup(page, "html.parser")
return parsed.find_all(tag, class_=class_name)
这将返回一个包含与此类似的条目的列表
<li class="title"><h4><a href="/addons/wow/world-quest-tracker">World Quest Tracker</a></h4></li>
在这种情况下,我正在尝试提取 href 标记之间的文本
World Quest Tracker
我怎样才能做到这一点?
【问题讨论】:
标签: python web-scraping beautifulsoup urllib