【发布时间】:2017-07-10 05:45:19
【问题描述】:
您好,我尝试从网页中抓取数据,但这是我的问题:
当我使用httpwebrequest 连接到服务器时,服务器将标头设置为Connection: Keep-Alive,然后请求加载验证码网页(在实际网页验证码加载ajax)然后在解决验证码后返回最后一个请求的答案并最终加载数据
webpage -> captcha -> Solve -> Back to first web page -> show data
我该怎么做?
- 使用
webrequest向网页发送请求 - 从
request获取cookie信息 - 加载
captcha page并获取catpcha pic -
send captcha pic到其他站点以获取solve和get captcha answer - 发送
captcha answer和webrequest和get cookie and session id - 发送
new webrequest和cookie and session id为load data
总是 -> 失败,我认为这是因为 Connection: Keep-Alive 所以我该如何解决这个问题?
而且当我尝试在 webbrowse 中加载页面时,我不知道为什么,但是在任何浏览器中,控制页面都无法正确加载,所以我无法使用浏览器
更新
我的问题:
如何在GetResponse()之后将答案(再次发布数据)发送到httpwebrequest并保持在线(不使用新连接)
【问题讨论】:
-
请尝试描述一个您无法解决的问题。例如如何在没有
keep-alive属性的情况下获得连接。看看how to ask -
好的,更新了!现在你怎么看?
标签: php cookies web-scraping httpwebrequest keep-alive