【发布时间】:2021-08-17 17:44:17
【问题描述】:
我有点纠结于 BeautifulSoup 的问题。这段代码是我正在尝试调试的函数的 sn-p。刮刀工作正常,突然停了下来。奇怪的是,我正在搜索“ipsColumn ipsColumn_fluid”的类在循环的第二步生成的“post_soup”文件中。
作为调试的一部分,我想看看生成了什么是文本文件的原因。然而,它是空的。我不知道为什么。
有什么想法吗?
post_pages = ['https://coffeeforums.co.uk/topic/4843-a-little-thank-you/', 'https://coffeeforums.co.uk/topic/58690-for-sale-area-rules-changes-important/']
for topic_url in post_pages:
post_page = urlopen(topic_url)
post_soup = BeautifulSoup(post_page, 'lxml')
messy_posts = post_soup.find_all('div', class_='ipsColumn ipsColumn_fluid')
with open('messy_posts.txt', 'w') as f:
f.write(str(messy_posts))
编辑:您可以交换此变量以查看它应该如何工作。这些网站建立在同一个平台上,所以抓取应该是相同的(我认为):
post_pages = ['https://forum.cardealermagazine.co.uk/topic/8603-customer-comms-and-the-virus/', 'https://forum.cardealermagazine.co.uk/topic/10096-volvo-issue-heads-up/']
【问题讨论】:
-
预期输出是什么?
-
尝试使用 css 选择器它会起作用,因为它找不到所需的输出空间
标签: python beautifulsoup lxml urlopen