【问题标题】:how to find the raw html from a tag which is itself find by using xpath [duplicate]如何从使用 xpath 找到的标签中找到原始 html [重复]
【发布时间】:2018-10-08 08:57:23
【问题描述】:

我通过 XPath 获取元素如下。这找到了所有<tr> 标签。 <tr> 元素有一些内容。如何获取单个 tr 元素的 HTML?

tbody = tbody_element1[0].xpath('.//tbody')
if tbody:
    tr_value = tbody[0].xpath('.//tr')

tr_valuetbody 元素内的所有 tr 元素的数组。

【问题讨论】:

  • tr_value = tbody[0].xpath('.//tr')[0] 可以工作。
  • 如果我们这样做,现在我们在 tr_value 中拥有数组的第一个值,但这是否包含原始 html 形式的数据或 xpath() 返回其他东西......?
  • 实际上我通过 lxml 找到了 tr 标签的元素,现在 tr 标签在其中包含一些 html 标签,所以对于这个 html 标签,我想使用 Beautiful soup。我们怎样才能做到这一点..?
  • 谢谢你 Lutz Horn ....

标签: xpath lxml innerhtml


【解决方案1】:

要获取原始 html,我使用 etree

if tbody:
    tr_value = tbody[0].xpath('.//tr')
raw_value = etree.tostring(tr_value[0])

现在 raw_value 具有由 tr_value

包含的 html 内容

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-07-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-07-07
    • 1970-01-01
    相关资源
    最近更新 更多