抓取网页数据答案

【问题标题】：Scraping web data抓取网页数据
【发布时间】：2021-10-15 14:34:47
【问题描述】：

我想抓取来自网站的数据：https://en.macromicro.me/charts/773/baltic-dry-index ，其中包含 4 个数据集。

我发现该网站使用 javascript 向https://en.macromicro.me/charts/data/773 发送请求获取数据，但由于某种原因，我无法使用 Postman 或我的脚本获取数据。我不断得到结果：{'success': 0, 'data': [], 'msg': 'error #240'}

我在这里错过了什么吗？这是我的代码：

import requests
import json
import datetime
import pandas as pd

url = 'https://en.macromicro.me/charts/data/773'
header = {
'sec-ch-ua':'"Chromium";v="92", " Not A;Brand";v="99", "Google Chrome";v="92"',
'Accept':'application/json, text/javascript, */*; q=0.01',
'Docref': 'https://www.google.com/',
'X-Requested-With':'XMLHttpRequest',
'sec-ch-ua-mobile':'?0',
'Authorization':'Bearer ee1c7b87258a902bde1129df2b64abac',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
r = requests.get(url,headers = header)
response = json.loads(r.text)
response

【问题讨论】：

仅供参考，它是 scrape（和 scraping、scraped、scraper）不是废品。 “废弃”意味着像垃圾一样扔掉:-(

标签： javascript python web-scraping request

【解决方案1】：

标题中缺少Cookie。刷新页面获取cookies。

【讨论】：

我确实添加了 cookie，但它不起作用。你做到了吗？
是的，我又试了一次。两个值均已验证：Cookie 和 Authorization。从同一个请求中复制它们，它就可以工作。它有一个到期时间。也许你应该尝试使用硒。