【问题标题】:Parse an iframe using lxml使用 lxml 解析 iframe
【发布时间】:2012-04-16 12:51:22
【问题描述】:

我正在从

我没有找到任何可以从 lxml 获取

谁能帮我告诉我如何实现它?

【问题讨论】:

    标签: python iframe lxml


    【解决方案1】:

    您可以从iframe 中提取src 属性,然后通过urllib 从url 中获取数据,最后使用lxml 再次解析此数据。

    示例代码(未测试):

    from lxml.etree import fromstring
    data = urllib.urlopen(url) # fetching url with iframe
    tree = fromstring(data.read()) # parsing tree to get src attribute
    src_url = tree.cssselect("iframe").attrib['src']
    data = urllib.urlopen(src_url) # open iframe src url
    tree = fromstring(data.read()) # parsing iframe tree
    

    【讨论】:

    • 我们必须使用什么来从 iframe 中获取 src?
    【解决方案2】:

    我们从iframe 中找到src 属性,然后通过requests lib 从src url 获取数据。

    import lxml.html as lh
    import requests
    
    
    rq= requests.get(url)
    
    content = rq.content
    
    doc = lh.fromstring(content)
    
    for i, elt in enumerate(doc.xpath('//[@id="page_content"]/div[2]/div/div/iframe')):
    
         url_data = elt.attrib.get('src')
         data = requests.get(url_data).content)
    

    【讨论】:

      猜你喜欢
      • 2011-04-03
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-07-12
      相关资源
      最近更新 更多