【发布时间】:2016-04-05 21:14:34
【问题描述】:
我正在使用 bs4 构建一个 python3 网络爬虫/爬虫。有些部分需要Reg Ex。我只想抓取文本内容。我应该如何解析这样的东西:
<p> This is blah blah
<a class="wordpresslink" href="https://wordpress.com/" rel="generator nofollow">WordPress.com</a>
<a href="http://www.whatever.com/"><span class="s1">Example</span></a>
Like blah blah
</p>
我想要输出:
This is blah blah WordPress.com Example Like blah blah
到目前为止我的代码:
import urllib.request
from bs4 import BeautifulSoup
u='https://en.wikipedia.org/wiki/Adivasi'
r=urllib.request.urlopen(u)
soup=BeautifulSoup(r.read(),'html.parser')
res = [i.text.replace('\n', ' ').strip() for i in soup.find_all('p')]
for p in res:
print(p)
【问题讨论】:
标签: python html regex python-3.x beautifulsoup