【发布时间】:2023-03-31 15:38:01
【问题描述】:
如何使用cheerio 仅提取正文? 我想去未知的网站,并简单地使用 nodeJS 和 Cheerio 获取正文(或所有文本)。
【问题讨论】:
标签: node.js web-scraping cheerio
如何使用cheerio 仅提取正文? 我想去未知的网站,并简单地使用 nodeJS 和 Cheerio 获取正文(或所有文本)。
【问题讨论】:
标签: node.js web-scraping cheerio
使用名为boilerpipe的npm moudle解决
【讨论】:
使用请求库,您将获得 HTML 文本。检查该站点以查看它是否未使用 Virtual DOM 或 Shadow DOM,即。做出反应。如果是,则 Cheerio 的方法不起作用,您会得到一个无法使用的圆形对象。
【讨论】: