使用python检查来自JSON的URL的网络响应答案

【问题标题】：Checking network responses from a URL for a JSON using python使用python检查来自JSON的URL的网络响应
【发布时间】：2021-07-27 06:53:44
【问题描述】：

我需要从这个 URL hkex.com.hk 获取包含信息的 JSON，我可以使用 firefox>developer tools>network 并寻找我想要的 JSON，我需要使用 python 做同样的事情，所以远我有这个

url='https://www.hkex.com.hk/Market-Data/Securities-Prices/Equities?sc_lang=en'
r = requests.get(url)
print(r.text)

但我只收到一个 HTML，所以即使在使用 .json() 之后，我也会收到错误“期望值”，因为它是空的，我该如何实现呢？

【问题讨论】：

您要提取页面的哪一部分？
表中的信息 "hkex.com.hk/Market-Data/Securities-Prices/Equities?sc_lang=en" 我可以在网络中找到它>其他有 3 个 .JSON 我需要最后一个，这个：www1.hkex.com.hk/hkexwidget/data/…
啊，如果找不到网络调用，最好的办法是使用 BeautifulSoup (crummy.com/software/BeautifulSoup/bs4/doc) 之类的工具来抓取页面并从 html 中提取表格信息。
问题是 HTML 没有数据，数据位于我试图访问的 .JSON 中
页面 (hkex.com.hk/Market-Data/Securities-Prices/Equities?sc_lang=en) 的 HTML 似乎确实在 table->tr->td 标记中包含数据。

标签： python json python-3.x web-scraping

【解决方案1】：

响应请求是一个 html 文本，因此您不能对整个响应使用 json() 方法。应该有另一种方法可以将html“转换”为json，但是您必须找到要转换为的html部分。

【讨论】：

HTML 都不是我的 JSON 的一部分，HTML 只是网站的 HTML，JSON 作为单独的文件 .JSON 接收，我可以在 firefox>network>others 中找到它，但是我不知道如何使用 python 访问它

【解决方案2】：

json 确实隐藏在您在其中一个 cmets 中提到的 url 中。您必须获取 html，提取 json 并加载它：

url = 'https://www1.hkex.com.hk/hkexwidget/data/getequityfilter?lang=eng&token=evLtsLsBNAUVTPxtGqVeG8QpVRBPNt2I8CbDELLpyZv%2bff8QFzdfZ6w1Za4TWSJ6&sort=5&order=0&qid=1627367921383&callback=jQuery35106295196366220494_1627367912871&_=1627367912873'
req = requests.get(url)
#now for the extraction:
target = req.text.split('jQuery35106295196366220494_1627367912871(')[1].split(')')[0]
#EDIT
target = req.text.split('(')[1].split(')')[0]
data = json.loads(target)
data

输出应该是你的 json。

【讨论】：

问题是带有 jQuery351 ..... 的 URL 每天都在变化，所以我不能使用相同的，要使用 .JSON 获取更新的 URL，我需要加载这个“ hkex.com.hk/Market-Data/Securities-Prices/Equities?sc_lang=en" 并使用 firefox 的开发人员工具找到新的 .JSON 的新链接，这部分是我希望使用 python 自动化的部分
@FddeF 对不起；你没有在问题中提到它，所以我不知道。一种可能的解决方法是将引用删除到 JQ.. 字符串并在( 上拆分，如.split('(')。它通常应该可以工作。
抱歉，您似乎对这个话题很熟悉，您能否详细说明一下我们要对 JQ 做什么...使用.split('(') ？