【发布时间】:2018-09-06 20:55:08
【问题描述】:
我需要多次从 html 字符串中删除样式标签的全部内容。我不能使用 DOM 解析器。
在 JavaScript 中我怎么能做到这一点?
【问题讨论】:
-
您的用例是什么?为什么不能使用 dom 解析器?
-
因为我正在获取巨大的 html 文件,并且我想在 Cheerio 中解析它们之前将它们从垃圾中剔除,希望它能改善我在 Nodejs 中的内存消耗问题。我正在构建一个并行执行大量 http 请求的网络爬虫,并且一些站点的 html 文件最多包含 200 万个字符(如我所说,大部分是垃圾)。我希望在解析 DOM 之前去除垃圾,可以改善我的记忆状况。
-
所以你已经使用了一个DOM解析器(cheerio),但是你对它的内存消耗有疑问?然后您应该考虑修改解析器,以便它立即删除样式(以及您认为“垃圾”的所有其他内容),而不是将其附加到其 DOM,而不是尝试使用正则表达式。 (为什么是正则表达式!?)
标签: javascript regex