【问题标题】:How to scrape data in a page with jquery button click using HtmlAgility pack如何使用 Html 敏捷包点击 jquery 按钮在页面中抓取数据
【发布时间】:2016-06-17 09:18:56
【问题描述】:

我正在尝试使用 HtmlAgility 包从内容相似的页面(购物网站)中抓取数据。

有一个按钮可以加载更多由标签设计的项目。单击它会在同一页面上加载更多项目。

如果它是使用标签设计的,那么我将使用标签中的 href 属性 URL 获取下一个项目,并且我将为新的下一个项目加载新页面,所以没问题。

但这里没有在同一页面上加载新的 URL 和项目。

那么有没有办法实现这个功能呢?如何触发加载更多按钮以获取更多项目?

【问题讨论】:

    标签: web-scraping web-crawler html-agility-pack


    【解决方案1】:

    HtmlAgilityPack 是一个单独的 html 解析器,它只知道解析静态 html 文档。您想要的可以使用selenium web driver 来完成。

    另一种可能性是 - 如果项目加载操作的数量使您可以手动完成加载 - 这样做并在本地保存生成的 html,然后才使用 HtmlAgiliyPack 解析您在本地存储的静态 html(而不是解析http响应)。

    分享你所说的网站的链接,我可以添加一些代码 sn-ps 来举例说明。

    【讨论】:

    • 哈,谢谢你的建议。我正在尝试为这个网站做一些事情,比如 jabong.com 或 myntra.com 或 amazon.com 或 snapdeal.com 或 Flipkart.com。,所有这些都是用于加载项目(jQuery 或 javascript)的相同类型。其中很少有网站提供我们可以用来获取数据的 api。但我想了解如何为 javascript 或 jQuery 或 Ajax 应用抓取。如果您编写了一些代码,请查看并分享 sn-ps。
    • 我还想知道是否有 python 使用的包。因为我听说 python 是滚动和抓取页面的最佳方式。我的意思是谷歌搜索做到了。
    • 是的,python 在爬虫社区中备受推崇。我认为它的优势并不在于抓取本身,而是在于提供机器学习算法和类似东西的库,这对于可扩展和广泛的抓取器来说最终是必不可少的。一个著名的图书馆是 Scrapy,另一个是 BeautifulSoup。我和你在同一条船上,我偶尔会考虑转向 Python。
    猜你喜欢
    • 2014-03-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-08-14
    • 2010-12-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多