【发布时间】:2019-10-08 15:48:20
【问题描述】:
我在 python 中创建了一个脚本来解析网页中的两个字段。我感兴趣的字段是 javascript 加密的。但是,它们在 json 数组中的页面源中可用。以下脚本可以从该页面生成该 json 数组,但我无法从中挖掘出所需的字段。
导航到该页面后,您只需单击此标签
Quarterly即可查看其在此处显示的字段:
到目前为止我已经尝试过:
import re
import json
import requests
url = 'link has been given above'
res = requests.get(url)
data = re.findall(r'root.App.main[^{]+(.*);',res.text)[0]
jsoncontent = json.loads(data)
print(jsoncontent)
PS 我已经知道如何使用 selenium 获取它们,所以浏览器模拟器不是我想要遵守的选项。
【问题讨论】:
-
我正在努力解决这个问题。您当前的脚本没有返回有效的 json,但页面上的 json 是有效的。您可以使用jsonviewer.stack.hu 之类的工具来遍历树并找出您的数据可能在哪里。
-
在我的情况下,脚本确实返回了有效的 json 响应。奇怪!!
-
啊,这是引号的问题,以及 jsonlint 喜欢如何处理它。无论如何,在下面回答,jsonview.stack.hu是必要的。
标签: python json python-3.x web-scraping python-requests