【发布时间】:2009-12-02 23:32:39
【问题描述】:
我在python中做简单的正则表达式
我正在尝试 re.split,但是像 ['\r\n', '\r\n'] 这样的东西来了,而不是答案。 有人可以告诉我如何显示实际文本吗?
我试过这个说法:
t_html = re.split("<[a-zA-Z0-9\s\w\W]*>[a-zA-Z0-9\s\w\W]*</[a-zA-Z0-9\s\w\W]*>" ,s)
谢谢
【问题讨论】:
-
呃,请发布您尝试使用的正则表达式。
-
我正在尝试获取所有 html 标签及其内容...例如,如果我有这个:“hello
asfasdf ”它会将其拆分为 hello 和asfasdf -
不要使用正则表达式来解析 html。使用美丽汤 www.crummy.com/software/BeautifulSoup
-
考虑嵌套标签的真实 html 会发生什么。一些东西更多东西还有更多东西
-
gnibbler 是对的。使用 Beautiful Soup 解析 HTML。不要重复不要尝试使用正则表达式来解析 HTML。