【发布时间】:2017-10-16 00:59:57
【问题描述】:
将 Python 3.4 与库请求、lxml.cssselect 和 lxml.html 一起用于屏幕抓取。使用用户名和密码登录可以正常工作,两个或三个页面链接可以让我进入搜索页面。然后我发布搜索请求:
import requests
oSession = requests.Session()
oPage5 = oSession.post( cDomain + cAction4, data = {...})
结果是相同的搜索屏幕;即不接受任何搜索参数。这是我迄今为止尝试过的:
- 使用 b'' 和 u'' 编码数据字典中的字符串
- 使用 import urllib.parse 对数据字符串进行 urlencode(应该不是必需的)
- 使用 Google Chrome 开发者控制台检查表单数据并将其复制到数据字典中
所以,我的选择已经不多了。谁能告诉我:
- 如何找出 Session 对象在 post 期间真正发送到服务器的内容?
- 表单数据中标签的顺序是否重要?如果是这样,如何强制执行某个命令(OrderedDict?)
- 我应该担心标题吗?我根本不碰它们。交互式会话在 Google 控制台中显示响应标头下的“Set-Cookie”。脚本化响应 oResponse.headers 没有此“Set-Cookie”标头
- 还有什么可以看的?
该网站是较旧的 IBM Websphere 安装。
【问题讨论】:
标签: python session python-requests