【问题标题】:Trouble with scraping text from site using lxml / xpath()使用 lxml / xpath() 从站点抓取文本的问题
【发布时间】:2014-11-24 01:06:27
【问题描述】:

快速。我是使用 lxml 的新手,并且花了很长时间试图从特定站点抓取文本数据。元素结构如下图:

http://tinypic.com/r/2iw7zaa/8

我想要做的是提取突出显示区域内显示的 100,100。我尝试过的语句包括(我将网站的源代码保存到一个文本文件中进行测试,test.txt - 也尝试使用 html 扩展名):

from lxml import html
tree = html.parse(test.txt)
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]')
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]/text()')

结果我似乎得到的只是一个空列表 [] ,任何帮助将不胜感激。

ps 我在展示我尝试过的内容时注释掉了这两个价值陈述。我尝试了一堆与上述类似的其他 xpath 语句,但由于 python shell 在我身上崩溃,它们丢失了。

pps。为图片的链接道歉 - 由于代表我无法直接发布图片。

【问题讨论】:

标签: python xpath lxml


【解决方案1】:

尝试从 xpath 中删除“/tbody”。

浏览器可能会添加 `/tbody' 标签,而它可能不会出现在原始 HTML 中。

阅读更多 herehere

【讨论】:

  • 谢谢伙计,成功了。很奇怪,因为我以为我已经尝试删除它了。
猜你喜欢
  • 2018-01-02
  • 2018-11-12
  • 2016-06-23
  • 1970-01-01
  • 2017-01-05
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多