使用 lxml / xpath() 从站点抓取文本的问题答案

【问题标题】：Trouble with scraping text from site using lxml / xpath()使用 lxml / xpath() 从站点抓取文本的问题
【发布时间】：2014-11-24 01:06:27
【问题描述】：

快速。我是使用 lxml 的新手，并且花了很长时间试图从特定站点抓取文本数据。元素结构如下图：

http://tinypic.com/r/2iw7zaa/8

我想要做的是提取突出显示区域内显示的 100,100。我尝试过的语句包括（我将网站的源代码保存到一个文本文件中进行测试，test.txt - 也尝试使用 html 扩展名）：

from lxml import html
tree = html.parse(test.txt)
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]')
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]/text()')

结果我似乎得到的只是一个空列表 [] ，任何帮助将不胜感激。

ps 我在展示我尝试过的内容时注释掉了这两个价值陈述。我尝试了一堆与上述类似的其他 xpath 语句，但由于 python shell 在我身上崩溃，它们丢失了。

pps。为图片的链接道歉 - 由于代表我无法直接发布图片。

【问题讨论】：

Why does my XPath query (scraping HTML tables) only work in Firebug, but not the application I'm developing?的可能重复

标签： python xpath lxml

【解决方案1】：

尝试从 xpath 中删除“/tbody”。

浏览器可能会添加 `/tbody' 标签，而它可能不会出现在原始 HTML 中。

阅读更多 here 和 here。

【讨论】：

谢谢伙计，成功了。很奇怪，因为我以为我已经尝试删除它了。