【发布时间】:2020-06-02 00:02:01
【问题描述】:
我想用 Python(响应或 Selenium 库)抓取 this website 并抓取该作者的所有文章并将它们放入 PDF 文件中。
但是,当我单击底部的“显示更多”按钮时,8 次后,它不再显示更多文章,因此我无法全部访问它们(想法是自动化 selenium,单击它直到显示所有文章,然后将它们全部刮掉)。有解决方法吗?我可以按时间顺序访问所有文章并抓取它们的替代方法?
我的想法是以某种方式分析链接是否来自其他来源,但我一无所知。但是,我成功抓取了那些显示的文章。
提前致谢!
【问题讨论】:
-
尝试登录。如果您已登录 NYTimes,您可以点击“显示更多”超过 8 次。
-
代码试用一下好吗?
-
发布你的代码你尝试了什么?
标签: python python-3.x selenium web-scraping automation