如何使用 Html 敏捷包点击 jquery 按钮在页面中抓取数据答案

【问题标题】：How to scrape data in a page with jquery button click using HtmlAgility pack如何使用 Html 敏捷包点击 jquery 按钮在页面中抓取数据
【发布时间】：2016-06-17 09:18:56
【问题描述】：

我正在尝试使用 HtmlAgility 包从内容相似的页面（购物网站）中抓取数据。

有一个按钮可以加载更多由标签设计的项目。单击它会在同一页面上加载更多项目。

如果它是使用标签设计的，那么我将使用标签中的 href 属性 URL 获取下一个项目，并且我将为新的下一个项目加载新页面，所以没问题。

但这里没有在同一页面上加载新的 URL 和项目。

那么有没有办法实现这个功能呢？如何触发加载更多按钮以获取更多项目？

【问题讨论】：

标签： web-scraping web-crawler html-agility-pack

【解决方案1】：

HtmlAgilityPack 是一个单独的 html 解析器，它只知道解析静态 html 文档。您想要的可以使用selenium web driver 来完成。

另一种可能性是 - 如果项目加载操作的数量使您可以手动完成加载 - 这样做并在本地保存生成的 html，然后才使用 HtmlAgiliyPack 解析您在本地存储的静态 html（而不是解析http响应）。

分享你所说的网站的链接，我可以添加一些代码 sn-ps 来举例说明。

【讨论】：

哈，谢谢你的建议。我正在尝试为这个网站做一些事情，比如 jabong.com 或 myntra.com 或 amazon.com 或 snapdeal.com 或 Flipkart.com。，所有这些都是用于加载项目（jQuery 或 javascript）的相同类型。其中很少有网站提供我们可以用来获取数据的 api。但我想了解如何为 javascript 或 jQuery 或 Ajax 应用抓取。如果您编写了一些代码，请查看并分享 sn-ps。
我还想知道是否有 python 使用的包。因为我听说 python 是滚动和抓取页面的最佳方式。我的意思是谷歌搜索做到了。
是的，python 在爬虫社区中备受推崇。我认为它的优势并不在于抓取本身，而是在于提供机器学习算法和类似东西的库，这对于可扩展和广泛的抓取器来说最终是必不可少的。一个著名的图书馆是 Scrapy，另一个是 BeautifulSoup。我和你在同一条船上，我偶尔会考虑转向 Python。