【问题标题】:Python Request library not helping in Getting the correct webpagePython Request 库无助于获取正确的网页
【发布时间】:2020-11-24 06:14:29
【问题描述】:

我有这个网站:

https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_0

我正在尝试通过 Python 的 get 请求获取此网页。我也尝试过更改“用户代理”。 但我无法获取网页,我对这个解析很陌生。

    url = 'https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_0'
    with request.session() as session:
           response = session.get(url)

有人可以帮我提取它吗?

【问题讨论】:

    标签: python web-scraping get scrapy request


    【解决方案1】:

    您的数据通过以下 url json 格式加载。所以我使用json模块来提取数据。

    from urllib.request import Request, urlopen
    from bs4 import BeautifulSoup as bs
    import requests
    import json
    headers={
        'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0',
    }
    def scrape(url):
        with requests.Session() as req:
            req.headers.update(headers)
            r = req.get(url)
            mydata =r.json()
            for data in mydata['data']['list']:
                print(data, sep='*')
    
    url =  'https://xueqiu.com/service/v5/stock/screener/quote/list?page=1&size=30&order=desc&orderby=percent&order_by=percent&market=CN&type=sh_sz&_=1606221698728'
    scrape(url)
    

    希望对你有所帮助。

    【讨论】:

    • 是的,它工作得非常好。你能告诉我你是怎么知道它是用那个网址上传数据的吗?将来会对我有所帮助。谢谢你。
    • 在 chrome 上打开 xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_0 然后按 ctrl+shift+i 然后转到网络选项卡单击 XHR 选项卡。在刷新页面之后,然后在名称选项卡下,您将看到上传数据的 url。非常感谢。
    • 您认为这是动态网址吗?有没有办法捕获网址?抱歉问了这么多问题。但这件事对我来说是全新的。谢谢。
    • 希望这个网址对您有所帮助。 scrapingauthority.com/scrapy-ajax,在这个网址请看图片。
    • 非常感谢。这真的很有帮助。
    猜你喜欢
    • 2014-11-11
    • 1970-01-01
    • 2022-01-22
    • 2013-12-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-01-17
    • 2018-07-21
    相关资源
    最近更新 更多