【问题标题】:Python: How to delete a HTML header from a text string? [duplicate]Python:如何从文本字符串中删除 HTML 标头? [复制]
【发布时间】:2011-09-21 13:15:54
【问题描述】:

可能重复:
using python, Remove HTML tags/formatting from a string

我读入了一个 HTML 文件:

fi = open("Tree.html", "r")
text = fi.read()

我想从文本中删除 HTML 标头:

text = re.sub("<head>.*?</head>", "", text)

为什么这不起作用?

【问题讨论】:

标签: python regex


【解决方案1】:

看起来你没有赶上换行符。您需要添加 DOTALL 标志。

text = re.sub("<head>.*?</head>", "", text, flags=re.DOTALL)

【讨论】:

  • 错误信息:TypeError: sub() got an unexpected keyword argument 'flags'
  • 你用的是什么版本的python? flags 关键字是 v2.7+。
  • 我使用的是 Python v2.6。没有“标志=”它可以工作。谢谢!
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-02-21
  • 1970-01-01
  • 2016-07-13
  • 1970-01-01
  • 2014-01-26
  • 2012-09-29
相关资源
最近更新 更多