【发布时间】:2021-08-31 03:31:32
【问题描述】:
为了从 Ali Express 上抓取产品,我可以在 Chrome 的控制台中运行 window.runParams.data 以非常轻松地访问所有信息。知道了这一点,我使用正则表达式直接从 Ali Express 的 HTML 中抓取产品信息,而无需模拟一百万次点击以使信息出现在我的屏幕上然后才提取它。
我正在尝试为另一个名为 Mercado Livre 的网站做同样的事情。问题是,每个产品都可以有变体,每个变体可能有也可能没有另一组通常超过 10 张图像。这是很多图像,不幸的是,我无法像访问 AliExpress 那样访问 window.runParams.data。这是我尝试时遇到的错误:
VM228:1 Uncaught TypeError: Cannot read property 'data' of undefined
at <anonymous>:1:18
这可能无关紧要,但变化部分出现在按钮中:
或下拉菜单:
在无需模拟点击的情况下,使用 Python 抓取所有这些图像的 URL 的最简单方法是什么?我查看了代码,但我很困惑,因为许多图像在变体之间共享,因此使用 Ctrl + F 查找 URL 并尝试找到每个变体的位置是不可能的。
所有缩略图 (for example this one) 就足够了,因为我可以将 URL 末尾的 R 替换为 F 并且它会变大,like this。
非常感谢!
【问题讨论】:
标签: javascript python html web-scraping