【发布时间】:2020-05-08 15:27:33
【问题描述】:
我正在使用 puppeteer。我有一种情况,我需要在两个不属于父子关系的标签之间获取内容。
<h1>neverchangeA<h1>
<span>abc<span>
<span>abc2<span>
<h1>neverchangeB<h1>
预期元素
<span>abc<span>
<span>abc2<span>
简单来说,我需要类似这样的正则表达式:
regex.matchBetween(<h1>neverchangeA<h1>,<h1>neverchangeB<h1>)
【问题讨论】:
-
我不确定,我需要这两个 h1 元素之间的任何元素,比如正则表达式
-
你打算如何处理标签之间的内容?您只需要原始 HTML 还是需要 puppeteer 处理对元素的引用?
-
原始 html 内容
-
您的示例 html 格式错误,因为它缺少
/s。
标签: javascript node.js web-scraping puppeteer