【问题标题】:How to extract section via xpath out of source code in scrapy?如何通过xpath从scrapy的源代码中提取部分?
【发布时间】:2019-02-09 21:35:34
【问题描述】:

我正在尝试从某个部分的网站源代码中提取文本。

我试图提取的网站的源代码如下:

if ('function' === typeof window.ToggleFilters) {
    window.ToggleFilters();
}
</script>

<main id="main" data-danger="">

<section data-creation-date="2018-10-15 11:35:06">

    <div class="detail__content">

我尝试通过 response.css 和 response.xpath 尝试通过 scrapy shell 从源代码中获取数据,但没有成功。

response.xpath("//*[contains('data-creation')]")

我想只提取数据创建日期,使其看起来像

'2018-10-15 11:35:06'

【问题讨论】:

    标签: python scrapy scrapy-shell


    【解决方案1】:
    response.css('#main section::attr("data-creation-date")').extract_first()
    

    response.xpath("//@data-creation-date").extract_first()
    

    response.xpath("//main/section/@data-creation-date").extract_first()
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2014-11-07
      • 1970-01-01
      • 1970-01-01
      • 2022-01-18
      • 2018-08-10
      • 1970-01-01
      • 2017-06-01
      相关资源
      最近更新 更多