【发布时间】:2017-01-27 14:00:36
【问题描述】:
我编写了这个使用 BeautifulSoup 的测试代码。
url = "http://www.dailymail.co.uk/news/article-3795511/Harry-Potter-sale-half-million-pound-house-Iconic-Privet-Drive-market-suburban-Berkshire-complete-cupboard-stairs-one-magical-boy.html"
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html,"lxml")
for n in soup.find_all('p'):
print(n.get_text())
它工作正常,但它也检索不属于新闻文章的文本,例如发布时间、cmets 数量、版权等。
我希望它只从新闻文章本身中检索文本,如何解决这个问题?
【问题讨论】:
-
您必须查看该网站以及它是如何制作的。新闻属于某个类还是某个标签?然后你可以使用 BS4 根据标签和类或 id 进行过滤。
-
对于这篇文章,过滤这个:。这不一定适用于其他网站,有时甚至不一定适用于同一网站上的文章,因此您需要查看每个网站的 HTML。
标签: python html beautifulsoup