【发布时间】:2012-01-30 11:32:42
【问题描述】:
我需要通过匹配html中的字符串来提取html中的父标签。 (IE) 我有很多原始的 html 资源。每个来源都包含带有一些字符的文本值 "VIN:*"**。此文本值(VIN:*)以各种格式放置在每个源中,例如“”、“”等。
然后我需要提取所有值以及“VIN:*”字符串。这意味着我需要获取它的父标签。
例如,
<div class="class1">
Stock Number:
Z2079
<br>
**VIN:
2T2HK31UX9C110701**
<br>
Model Code:
9424
<img class="imgcert" src="/images/Lexus_cpo.jpg">
</div>
这里我有 html 源代码的“VIN”。与此类似,我也有其他 html 源的 VIN,格式也不同。
这些值必须在 Python 中提取。
有没有办法通过匹配Python中的字符串来有效地提取父标签?
【问题讨论】:
-
永远不要使用正则表达式来解析 HTML。尤其是在 python 中,你可以使用 BeautifulSoup 做得更好......
-
@saravana ThiefMaster 的 ukase 和断言是我反对的有争议且毫无争议的观点。我这样说是为了平衡他所表达的一般宗教信仰。 (为什么宗教:看到这个答案:stackoverflow.com/a/1732454/551449)
-
@saravan 正则表达式比 BeautifulSoup 和 lxml 快得多
标签: python html regex pattern-matching lxml