【发布时间】:2021-02-15 13:44:57
【问题描述】:
我正在尝试抓取一个网站,但出现此错误:
AttributeError: 'NoneType' 对象没有属性 'text'
在
---> 12 for x in soup.select("div.site-content")]
使用的代码是:
rq = req.get("https://stopcensura.net/category/cronaca")
soup = BeautifulSoup(rq.content, 'html.parser')
scrape_info = [(x.h3.a.text, x.time.text)
for x in soup.select("div.site-content")]
我想获得有关标题 (entry-title)、日期 (class="date")、作者 (<div class="by-author vcard author">... </div>) 和内容 (div class="entry-content") 的信息。
我认为问题可能在于选择正确的标签,但我不确定。
我们将不胜感激任何帮助和建议。
【问题讨论】:
-
num是什么页面? -
抱歉,这段代码是爬虫的一部分。我要删除那部分。我想刮掉名为“cronaca”的部分中的所有页面;但是,由于它不适用于一页,因此对所有其他页面使用 num 没有意义
标签: python web-scraping beautifulsoup web-crawler