【发布时间】:2021-11-18 18:40:38
【问题描述】:
我需要获取 HTML 元素中的所有内容,包括所有子节点和孙节点及其内容,就好像它是一个字符串一样。这是我的预期输出:
<div class="images"><div class="img_100"><a class="img a" legenda="" target="" style=""><img src="/img/site/570/b/random_image.jpg" alt="Lorem ipsum - dolor sit amet" class="portrait"></a></div></div>
我目前正在使用带有 puppeteer 的 JS 来抓取我需要的页面,但我需要将所有 HTML 作为字符串来格式化一些内容,我不知道如何以我想要的方式获得它。
我还使用此查询 document.querySelectorAll(".page_content_post") 来获取我想要内容和子/孙节点的父元素。
提前致谢。
【问题讨论】:
-
那里真的没有足够的信息继续下去。至少发布您尝试定位的元素的完整html(您只有innerHTML)。最好给出页面 HTML 结构的代表性示例,如果不是整个内容,或指向它的链接。
标签: javascript html selector scrape