【发布时间】:2021-10-15 15:37:26
【问题描述】:
我对 Python 很陌生(一周大),所以如果这听起来很愚蠢,我很抱歉,但我真的很感激一些帮助。我想对 HTML 文件中的特定文本部分进行转义。例如,假设整个文本是:
Lorem ipsum dolor sit amet,consectetur adipiscing elit。 Nunc fringilla arcu congue metus aliquam mollis。 Mauris nec maximus purus。 Maecenas 坐在 amet pretium Tellus。 dignissim lacus 的 Quisque。
我想对单词“mollis”之后和单词“Quisque at dignissim lacus”之前的所有文本进行转义,理想的输出应该是:
Mauris nec maximus purus。 Maecenas 坐在 amet pretium Tellus。
到目前为止,我只是设法从网站上抓取了一些部分并删除了 HTML 标签:
from bs4 import BeautifulSoup
from re import findall
file = open('filename.html', encoding= "UTF-8")
soup = BeautifulSoup(file, 'lxml')
for match in soup.find_all('div', class_='discussion-desc'):
recom = match.text
re.findall(r'@(\w+)','recommendations')
#['recommendations', 'steps']
#re.findall(r'@(\w+)', 'recommendations')
#[]
#(re.findall(r'@(\w+)', 'recommendations') or None,)[0]
#'recommendations'
#print (re.findall(r'@(\w+)', 'recommendations') or None,)[0]
#None
请帮忙,谢谢。
【问题讨论】:
-
移除 HTML 标签 ? - 你这是什么意思?你有
beautifulsoup来获取标签之间的内容。 -
我的意思是删除所有(我不知道那叫什么)并仅提取可读文本。
标签: python regex web-scraping beautifulsoup