【问题标题】:python beautifulsoup : lxml html.parserpython beautifulsoup:lxml html.parser
【发布时间】:2016-10-22 08:25:43
【问题描述】:

我必须使用 beautifulsoup,但我不知道我必须使用哪个解析器。 我在 lxml 和 html.parser 之间犹豫不决,或者为什么不两者兼而有之。 如何知道网页是否符合 lxml 标准? 如何知道网页是否符合 html 解析器? 非常感谢

【问题讨论】:

标签: python beautifulsoup lxml html-parser


【解决方案1】:

没有灵丹妙药。 Different HTML parsers behave differently,您应该选择适合您特定页面的那个。在这种情况下工作基本上意味着您可以获得所需的数据。

lxml 解析器通常更快,html5lib 是最宽松的解析器 - 如果您要解析损坏的或格式不正确的 HTML,这种差异将是相关的。 html.parser 是内置的,如果这是一个问题,可以帮助避免额外的依赖。这是一个突出差异的related table

【讨论】:

  • 所以要确保得到所有的链接,我必须使用几种方法,几种解析器?
  • @Anonymus 不,通常你只需选择一个解析器并坚持下去。但是,我可以想象一个页面格式不正确,并且使用不同的解析器对其进行解析可能会比使用单个解析器获得更大的画面。不过,我还没有遇到过这种情况。谢谢。
猜你喜欢
  • 2019-02-17
  • 2016-07-11
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-11-22
  • 2018-08-26
  • 2013-04-28
相关资源
最近更新 更多