【发布时间】:2018-11-24 14:05:39
【问题描述】:
我正在尝试使用 Jupyter Notebook 提取泰坦尼克号训练和测试数据。在下面找到我的代码 sn-p。
payload = {
'action': 'login',
'username': os.environ.get("KAGGLE_USERNAME"),
'password': os.environ.get("KAGGLE_PASSWORD")
}
url = "https://www.kaggle.com/c/3136/download/train.csv"
with session() as c:
c.post('https://www.kaggle.com/account/login', data=payload)
response = c.get(url)
print(response.text)
执行此操作后,我得到的是 HTML 响应而不是训练数据。我也在 .env 文件中正确配置了我的 Kaggle 登录凭据。我在这里做错了吗?
【问题讨论】:
-
您收到的 HTML 响应是什么?您可能只需要解析响应。您正在发出 HTML 请求,因此 HTML 响应是很自然的接收方式。
-
以下内容:
Kaggle:你的数据科学之家 -
响应太大,无法在此处发布。
-
好的,这可以理解。同样,您发出了一个 HTTP 请求并收到了一个 HTTP 响应——完全正常。您需要解析出您感兴趣的数据。您究竟想从响应中提取什么?
-
请注意,由于您可能会在 python 中解析 HTML,因此您应该查看有助于处理此类事情的库。有一些存在 - 我个人喜欢pythonhosted.org/pyquery
标签: python