【发布时间】:2020-03-03 22:46:06
【问题描述】:
我有数千个 HTML 站点,我正在尝试从这些站点中过滤文本。
我正在用美味的汤做这个。 get_text() 为我提供了来自这些网站的许多不必要的信息。
因此我写了一个循环:
l = []
for line in text5:
soup = bs(line, 'html.parser')
p_text = ' '.join(p.text for p in soup.find_all('p'))
k = p_text.replace('\n', '')
l.append(k)
但是这个循环给了我以<p开头的标签中的所有内容。
例如:
我想要两个普通的<p> 标签之间的所有内容。
但我也从这样的地方得到内容:
<p class="header-main__label"> bla ba </p>.
我可以告诉 BeautifulSoup 只获取普通的<p> 标签吗?
【问题讨论】:
-
soup.find_all('p', class_=False)
标签: python beautifulsoup