【发布时间】:2016-09-20 21:45:27
【问题描述】:
经过长时间的挣扎,我设法将一个输入长字符串处理成以下形式 - 一个列表:
['<', 'p', '>', '<', 'a', 'href', '>', '<', 'a', '>', '<', 'p', '>', '<', 'div', 'class', '>', '<', 'a', 'href', '>', '<', 'a', '>', '<', 'div', '>']
我现在如何有效地以硬编码方式处理该列表以获取每个 HTML 标记及其涵盖的属性?
所以在那之后我会确认 p 没有任何属性,a 有 href 并且 div 有 class 属性? p>
【问题讨论】:
-
为什么不使用例如
BeautifulSoup首先? -
我很好奇。为什么需要这样做?
-
stackoverflow.com/questions/1732348/…?也许使用解析器而不是尝试手动解构 html?
标签: python html regex parameters tags