【问题标题】:How can i get content from outside an HTML tag with xpath如何使用 xpath 从 HTML 标记外部获取内容
【发布时间】:2020-03-02 15:48:43
【问题描述】:

我在学习web-scrapy,遇到了以下情况

<br>
<b style="" xpath="1">Data de autuação</b>
<br>
29/06/2018 - 17:53:48
<br>
<br>
<b>Estado</b>

如何使用 xpath 获取文本“29/06/2018 - 17:53:48”?

【问题讨论】:

  • 请不要发布图片。使用两种情况的实际 html 编辑您的问题。
  • 好的,抱歉,这是我的第一个帖子/问题 :)
  • 假设你上面的代码的父级是一个div,那么你可以试试//div/text()[4]

标签: html xpath scrapy web-crawler


【解决方案1】:

由于文本不在标签之间,并且为了避免空白节点,您可以使用以下内容:

normalize-space(substring-before(substring-after(string(//body),//b[@xpath="1"]/text()),//b[last()]/text()))

我们使用字符串获取正文标签内的整个文本,并使用子字符串命令修剪不必要的部分。我们以规范化空间结束以获得干净的结果。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-12-23
    • 2020-08-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-07-31
    • 2015-07-20
    相关资源
    最近更新 更多