【发布时间】:2021-10-27 09:56:28
【问题描述】:
我正在尝试筛选以下页面的内容(列出所有医学专业)和此页面中包含的链接的内容(所有提供特定专业培训的大学)。这是包含所有专业的主页: https://services.aamc.org/eras/erasstats/par/index.cfm
页面上的第一个链接是专门的青少年医学(儿科),网址是https://services.aamc.org/eras/erasstats/par/display8.cfm?NAV_ROW=PAR&SPEC_CD=321
当我尝试直接导航到上述 URL 时,服务器会将我重定向回主页。但是,单击 Adolescent Medicine 的链接会将我带到我想要访问的页面。
我很困惑为什么单击链接会将我带到正确的页面,但导航到相同的 URL 却没有。以下是我的想法:
-
Javascript 问题- 我禁用了 JS,但我仍然不断被重定向到主页。此外,单击表中的链接仍会将我带到正确的页面。
-
Cookies- 我禁用了所有 cookie,但在尝试使用直接 URL 访问 Adolescent Medicine 页面时仍然遇到同样的问题。有趣的是,在禁用所有 cookie 的情况下,使用表格链接导航仍然有效。
-
HTTPS- 不确定如何检查这是否导致了问题。
我花了很多时间在 Chrome 上查看开发人员的控制台,但无法找到无法使用直接 URL 访问专业页面的原因。任何帮助或指导将不胜感激!
【问题讨论】:
标签: javascript http redirect cookies screen-scraping