【发布时间】:2019-10-09 15:03:51
【问题描述】:
我正在尝试从在线评论网站检索有用性指标。使用 Python 和 lxml 我尝试检索此值,但输出仍然为空。我使用了以下代码和相应的 XPath:
span class="brand-find-useful__count">1</span>
tree = html.fromstring(page)
helpfulness = tree.xpath('//span[@class="brand-find-useful__count"]/text()')
但是,它只是没有给我一个输出,只是一个空值。重要的是要注意,当没有竖起大拇指(有用)时,这个跨度不会出现。我在一个肯定有有用计数的页面上尝试了几次知道,但不幸的是我无法检索它。我仍然是新手,但我不知道错误是什么。
【问题讨论】:
-
tree.xpath('//span[@class="brand-find-useful__count"]/text()')返回一个列表,可以使用tree.xpath('//span[@class="brand-find-useful__count"]/text()')[0]获取文本。 -
感谢您的快速回复。如果我这样做,我会得到:'IndexError: list index out of range'。
-
嗨@Principia,欢迎来到 Stack Overflow! :-)。我不确定 XML 和网站。 HTML 不是 XML,这可能会给您带来一些问题。也许 Beautiful Soup 库更合适?它允许使用 CSS 选择器(riptutorial.com/python/example/4510/…)查询 HTML 树
-
感谢@mhogerheijde 的欢迎和建议。我会仔细看看的。我从 xpath 方法开始并认为,也许有一种方法可以通过它来解决。将研究美丽的汤,谢谢。
-
网址是什么?
标签: python html xpath web-scraping