【发布时间】:2019-09-25 13:49:38
【问题描述】:
我一直在尝试使用正则表达式来解析 XML 样式的字符串,如下所示:
输入 "Joe Doe got a <span class="procedure">X ray</span> <- in April blah blah <span <- class="disease">lacerations</span> blah <span <- class="anatomy">kidney</span>."
对于每个跨度,我想匹配三个组:"<span class="blah">blah</span>" , class, textual content
例如: <span class="procedure">X ray</span>
匹配项是:<span class="procedure">X ray</span>, procedure, X ray
到目前为止,我已经能够使用re.search('<.+?>', xml) 找到<span class="procedure">
尽管使用了re.search('<.+?>+, xml),但我没有找到其他字符串,而是给出了<span class="procedure">X ray</span> <- in April>,这也不是想要的结果。
【问题讨论】:
-
在发布这个问题之前,我确实对这个主题进行了很好的研究,并且我很清楚可以更轻松地执行所需任务的众多工具。然而,我被要求使用正则表达式执行此任务,由于正则表达式和 XML/HTML 的限制,这显然是一个挑战。
-
干杯,很高兴有人能够在主题作为副本关闭之前提供答案。对于未来的建议:如果你列出你所做的研究,并解释“是的,我知道我通常不应该这样做,但我需要作为测试/家庭作业/等的一部分。”它将不太可能因任何原因关闭!
-
啊,我明白了,谢谢你的信息!下次一定要申请!