【发布时间】:2015-03-04 05:33:38
【问题描述】:
我想通过丢弃包含在 HTML 标签中的所有文本(包括标签本身)来清理包含错误提取的 HTML 内容的 JSON 文件。
我试过这个功能:
def stripIt(s):
txt = re.sub('</?[^<]+?>.*?</[^<]+?>', '', s)
return re.sub('\s+', ' ', txt)
但是当我将它应用到 JSON 文件时,它可能会破坏 JSON 文件,从而产生一些错误。
HTML 内容也因缺少标签、只有结束标签等而被破坏。
那么,如何在不破坏文件的情况下从 JSON 文件中剥离所有 HTML 内容?
【问题讨论】:
-
我猜你必须在从结构中获取条目时对条目进行清理,而不是一次从整个文件中获取它们
-
但是正则表达式本身可以完成这项工作吗?
-
最好的测试方法是在内容的在线正则表达式验证器上使用。不要用反复试验来折磨自己...regexpal.com
-
@Ali 取决于。此表达式将废弃标签,但 HTML 不仅仅是标签。
标签: python html regex json data-cleaning