【发布时间】:2011-11-05 19:37:33
【问题描述】:
我正在使用以下代码从 RSS 提要中获取我的结果:
try:
desc = item.xpath('description')[0].text
if date is not None:
desc =date +"\n"+"\n"+desc
except:
desc = None
但有时描述在 RSS 提要中包含 html 标签,如下所示:
这是示例文本
在显示内容时,我不希望在页面上显示任何 HTML 标记。是否有任何正则表达式可以删除 HTML 标签。
【问题讨论】:
-
我认为这将是合适的! stackoverflow.com/questions/1732348/….
-
@Jeroen:不,这不合适。这很傻。你根本没有读过这个问题吗? 他已经在使用 xpath 了!!! 你们会不会只是裁员并用你的大脑来改变?
-
@tchrist:我可能误解了一些东西,但目前在我看来,您似乎并没有真正阅读他的问题。他正在使用 xpath,对,但他在评估后得到的是 HTML。除此之外:兄弟,没必要不友好。
-
@naeg:我非常强烈地觉得 1732348 的答案只是一个经常被重复的笑话。它对人们没有帮助。我觉得它非常不友好,所以我一有机会就投反对票。
-
@tchrist:imo 有帮助,因为它解释了使用正则表达式解析 html/xml 是错误的,您应该使用一些解析器。我第一次阅读该答案,发现它很有趣且正确(不仅是该问题的公认答案,还有其他答案)
标签: python regex string substring