【发布时间】:2014-11-24 01:06:27
【问题描述】:
快速。我是使用 lxml 的新手,并且花了很长时间试图从特定站点抓取文本数据。元素结构如下图:
http://tinypic.com/r/2iw7zaa/8
我想要做的是提取突出显示区域内显示的 100,100。我尝试过的语句包括(我将网站的源代码保存到一个文本文件中进行测试,test.txt - 也尝试使用 html 扩展名):
from lxml import html
tree = html.parse(test.txt)
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]')
#value = tree.xpath('//*[@id="content"]/table[4]/tbody/tr[1]/td[2]/text()')
结果我似乎得到的只是一个空列表 [] ,任何帮助将不胜感激。
ps 我在展示我尝试过的内容时注释掉了这两个价值陈述。我尝试了一堆与上述类似的其他 xpath 语句,但由于 python shell 在我身上崩溃,它们丢失了。
pps。为图片的链接道歉 - 由于代表我无法直接发布图片。
【问题讨论】: