【发布时间】:2018-07-11 13:13:16
【问题描述】:
我正在使用 python 和 lxml 来收集一些网络数据。
如果我有一些元素:
import requests
from lxml import html
r = requests.get(url)
tree = html.fromstring(r.text)
file_ = tree.xpath('some_xpath')[0]
url=file_.attrib['href'] #element
这会产生类似的东西:
../Document1/Document2.aspx?No=123456
我的基本网址是这样的:
http://www.foo.com/
我可以只添加基本 url 并清除间接前导句点,但必须有更好的方法。
感谢您的任何意见。
【问题讨论】:
-
Python 2 还是 3?恭喜你,你正在以不同寻常的方式处理这个问题。
-
python 2. 请问,解决这个问题的常用方法是什么?
标签: python web-scraping lxml