【发布时间】:2021-02-25 02:37:23
【问题描述】:
我将以下 HTML sn-p 输出存储在名为 content 类型为 bs4.element.Tag 的变量中。
<li class="item">
Alpha-tocopherol
<em>see</em>
<a href="https://medlineplus.gov/vitamine.html">Vitamin E</a>
</li>
str(content) 输出:
'<li class="item">\n Alpha-tocopherol\n <em>see</em>\n<a href="https://medlineplus.gov/vitamine.html">Vitamin E</a>\n</li>'
我想使用 Python 作为输出:['Alpha-tocopherol', 'Vitamin E']。
我尝试了以下方法,但它是错误的:
regex = re.compile('(\w+\s+)\n')
regex.sub('', content.text).split()
【问题讨论】:
标签: python-3.x regex web-scraping xpath beautifulsoup