【发布时间】:2016-01-09 13:21:34
【问题描述】:
我有这样的html文本:
myHTML = 'I like <a class="thing1 thing2">this thing</a>'
myHTMLarray = myHTML.Split(' ')
>>>['I','like','<a','class="thing1','thing2">this','thing</a>']
我需要忽略标签中的空格('' 之间的任何内容)。我想要的结果是:
>>>['I','like','<a class="thing1 thing2">this','thing</a>']
理想情况下,我想确保文本中的一个单词恰好出现在列表的每个元素中。因此,没有空格以外的文本的中断标签或跨度标签将包含在前一个单词中。
【问题讨论】:
-
也许我可以做一些正则表达式来让 split() 忽略标签中的空格?
-
@Matzyschneider 我实际上不希望标签作为不同的元素。我希望它们包含在文本中的一个单词中。我很好
firstword 都在一个元素中
-
crummy.com/software/BeautifulSoup/bs4/doc 可能有帮助:) 或者在这里你可以试试你的正则表达式 :P pythex.org
-
我想过做一些类似 soup.string.split(' ') 的事情,但我不确定如何将 html 标签放回列表中。