【发布时间】:2020-06-07 22:28:16
【问题描述】:
所以我正在尝试抓取这个网站,示例 url 是 https://www.rfa.org/cantonese/news/SARS-12312019075620.html
我只是想获取文本,但是,您可以看到一些文本在p 标签下,而其中一些在br 之间。我不想获取图片的文字描述,所以我无法抓取所有内容。
这是我目前所拥有的,只能在p 下获取文本
//*//div[@id="storytext"]/p/text()
但是我怎样才能得到每一个文字而不是图片的描述和其他不必要的信息。
所以有 2 层。第一个是p,另一个是br 之间的文本。图片的描述总是在3层。
【问题讨论】:
-
更好地添加预期输出
标签: python python-3.x xpath web-scraping