【发布时间】:2019-02-26 01:22:54
【问题描述】:
我正在实现一个主要基于 pyautogui 的 python 脚本。该脚本所做的其中一件事是打开一个 chrome 网页。之后,我需要访问这个当前打开的网页的 DOM。 由于我没有用 selenium 打开浏览器,所以我不能用它来分析 DOM。 但是,我的问题是:这个当前打开的 chrome 页面是否可用/保存在硬盘驱动器的某个位置,以便我可以使用 selenium 访问它?像一个 .html 文件? 我在这里检查了许多其他问题,用户谈论 chrome 缓存,但那里没有 html 文件。 我只需要能够访问当前打开的页面,而不是缓存中的所有历史数据。 直接用 selenium 打开网络浏览器也不是一种选择,因为大多数被分析的网站都有验证码和蒸馏技术。 谢谢。
【问题讨论】:
-
嗯...您到底需要什么?只是 DOM,作为 html?您可以使用
webdriver.page_source获取源代码,以便稍后保存。这将包含当前呈现的 html(基本上与您在任何浏览器中使用 CTRL-U 获得的相同),但不包含外部资源(没有 css/js/pic/whataver 文件,只是对它们的引用) -
@skandigraun 我确实需要它们 DOM,但请记住我不使用 selenium 打开 chrome 浏览器。
-
如果您不想使用硒,为什么这是一个硒问题。不,现代浏览器不会将当前页面保存在磁盘上。但由于不清楚您对浏览器有什么样的访问权限(除了不使用 selenium),因此不确定我们能否提供这么少的细节。
-
@skandiggraun 我想你有足够的线索。如果您创建一个答案,我将能够对其进行投票,并确保您因帮助而获得奖励。再次感谢
-
哦,是的......甜蜜的互联网点,我来了:D
标签: selenium google-chrome selenium-chromedriver browser-cache pyautogui