【问题标题】:Extract main text from HTML using Cheerio使用 Cheerio 从 HTML 中提取正文
【发布时间】:2023-03-31 15:38:01
【问题描述】:

如何使用cheerio 仅提取正文? 我想去未知的网站,并简单地使用 nodeJS 和 Cheerio 获取正文(或所有文本)。

【问题讨论】:

    标签: node.js web-scraping cheerio


    【解决方案1】:

    使用名为boilerpipe的npm moudle解决

    【讨论】:

      【解决方案2】:

      使用请求库,您将获得 HTML 文本。检查该站点以查看它是否未使用 Virtual DOM 或 Shadow DOM,即。做出反应。如果是,则 Cheerio 的方法不起作用,您会得到一个无法使用的圆形对象。

      【讨论】:

        猜你喜欢
        • 2023-03-18
        • 2015-10-11
        • 1970-01-01
        • 1970-01-01
        • 2020-09-27
        • 2013-06-27
        • 2021-08-12
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多