【发布时间】:2016-03-25 20:56:07
【问题描述】:
出于教育目的,我正在尝试使用 lxml 和 Python 中的请求来抓取 this page。
具体来说,我只想在页面上打印所有教授的研究领域。 这是我到目前为止所做的事情
import requests
from lxml import html
response=requests.get('http://cse.iitkgp.ac.in/index.php?secret=d2RkOUgybWlNZzJwQXdLc28wNzh6UT09')
parsed_body=html.fromstring(response.content)
for row in parsed_body.xpath('//div[@id="maincontent"]//tr[position() mod 2 = 1]'):
for column in row.xpath('//td[@class="fcardcls"]/tr[2]/td/font/text()'):
print column.strip()
但它没有打印任何东西。我在使用 xpaths 时遇到了很多困难,最初是在 chrome 中使用复制 xpath 功能。我按照以下 SO 问题/答案中所做的操作,对我的代码进行了相当多的清理,并在 xpaths 中删除了“tbody”。代码仍然返回一个空白。
【问题讨论】:
标签: python-2.7 xpath web-scraping python-requests lxml