【发布时间】:2023-03-04 18:59:01
【问题描述】:
我目前正在使用 Selenium (chrome) 从网站上抓取动态内容,但自动浏览器的处理时间过长。 (我正在抓取的个人资料页面上有一个“查看更多”按钮,每次点击它只加载 5 个帖子)没有其他方法可以访问这些“隐藏”帖子而不点击“查看更多”按钮,它手动单击按钮以检索不久前的帖子需要太长时间。关于如何加快这个过程的任何想法?
网址:https://r1.community.samsung.com/t5/user/viewprofilepage/user-id/5045
【问题讨论】:
-
如果页面有 API 然后使用它。如果你可以在没有 Seleniu 的情况下重写它。如果您必须使用 Selenium,请使用选项
--headless运行 - 它将在不显示窗口的情况下运行,并且不需要在屏幕上呈现所有内容。 -
在不知道 URL 的情况下很难看出如何加快速度。查看页面发出请求的开发人员工具,注意 URL,也许您可以直接查询这些 URL。
-
@AndrejKesely 抱歉,我刚刚添加了网址。 r1.community.samsung.com/t5/user/viewprofilepage/user-id/5045
标签: javascript python selenium-webdriver web-scraping beautifulsoup