【问题标题】:Correct handling of ASP.NET-pages when scraping抓取时正确处理 ASP.NET 页面
【发布时间】:2011-09-02 13:56:59
【问题描述】:

我正在从 Python 脚本中抓取某个支持 ASP.NET 的搜索页面,但在从回发中获取我想要的数据时遇到了麻烦。

所以我想在排除之前验证我是否正确获取了与 ASP.NET 相关的位。

到目前为止,我只是获取所有隐藏的表单变量(例如__VIEWSTATE)并将它们与其他 POST 请求参数一起发送。 这是正确的还是它们应该以某种方式改变? POST 响应包含更新的隐藏变量,我假设它们应该成为下一次回发的参数,但是当我在 Firefox 中浏览同一页面时,并非所有隐藏形式回发的字段是相同的(例如__EVENTTARGET__EVENTARGUMENT)。

我是否需要在这里进行任何其他特殊处理,或者仅此而已?

【问题讨论】:

    标签: asp.net screen-scraping


    【解决方案1】:

    这就是它的全部内容。最主要的是维护 __VIEWSTATE 从一个帖子到另一个帖子;听起来你已经涵盖了。

    【讨论】:

    • 我认为客户端无法更改 __VIEWSTATE?
    • @Alex B:视图状态是页面在交付给客户端时的“加密”状态。该信息由服务器在回发时解密,并与各种值进行比较。如果有什么疏忽,那么你会得到一个漂亮的黄色屏幕,抱怨视图状态。所以,不,客户不能改变它。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-04-23
    • 1970-01-01
    • 1970-01-01
    • 2012-06-17
    • 1970-01-01
    • 1970-01-01
    • 2020-05-29
    相关资源
    最近更新 更多