【发布时间】:2012-04-16 12:51:22
【问题描述】:
我正在从
我没有找到任何可以从 lxml 获取
谁能帮我告诉我如何实现它?
【问题讨论】:
我正在从
我没有找到任何可以从 lxml 获取
谁能帮我告诉我如何实现它?
【问题讨论】:
您可以从iframe 中提取src 属性,然后通过urllib 从url 中获取数据,最后使用lxml 再次解析此数据。
示例代码(未测试):
from lxml.etree import fromstring
data = urllib.urlopen(url) # fetching url with iframe
tree = fromstring(data.read()) # parsing tree to get src attribute
src_url = tree.cssselect("iframe").attrib['src']
data = urllib.urlopen(src_url) # open iframe src url
tree = fromstring(data.read()) # parsing iframe tree
【讨论】:
我们从iframe 中找到src 属性,然后通过requests lib 从src url 获取数据。
import lxml.html as lh
import requests
rq= requests.get(url)
content = rq.content
doc = lh.fromstring(content)
for i, elt in enumerate(doc.xpath('//[@id="page_content"]/div[2]/div/div/iframe')):
url_data = elt.attrib.get('src')
data = requests.get(url_data).content)
【讨论】: