【问题标题】:Python html parsing [duplicate]Python html解析[重复]
【发布时间】:2011-07-04 10:57:46
【问题描述】:

我需要解析相似但不完全相同的 html 电子邮件。我会寻找日期、金额、供应商等信息,但根据电子邮件的发件人,标记会有所不同。

如何从 python 中的许多不同的 html 标记中解析出这些常见的东西?

感谢您的建议。

【问题讨论】:

  • 只是不要使用正则表达式:)

标签: python html parsing


【解决方案1】:

您绝对需要考虑Beautiful Soup 库。

【讨论】:

  • 看起来是解析 html 的好方法。 BeatifulSoup 还会清理/修复格式错误的 html 吗?
  • @user634529。答案是肯定的。
【解决方案2】:

您可以使用Beautiful Soup 在 Python 中解析 HTML。

【讨论】:

  • @downvoter:您是否想获得一个徽章来否决一切或某事?链接没有失效,您也没有发表评论。我假设同一个人在这里对所有 3 个答案都投了反对票。
【解决方案3】:

BeautifulSoup 或 lxml 是不错的 HTML 解析器。 BeautifulSoup 更方便一些,但也有一些零碎的东西。

【讨论】:

    猜你喜欢
    • 2012-10-01
    • 2012-09-27
    • 2013-10-30
    • 2012-05-11
    • 2015-06-24
    • 1970-01-01
    • 2011-12-17
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多