【问题标题】:Get all content as string inside div获取所有内容作为 div 内的字符串
【发布时间】:2021-11-18 18:40:38
【问题描述】:

我需要获取 HTML 元素中的所有内容,包括所有子节点和孙节点及其内容,就好像它是一个字符串一样。这是我的预期输出:

<div class="images"><div class="img_100"><a class="img a" legenda="" target="" style=""><img src="/img/site/570/b/random_image.jpg" alt="Lorem ipsum - dolor sit amet" class="portrait"></a></div></div>

我目前正在使用带有 puppeteer 的 JS 来抓取我需要的页面,但我需要将所有 HTML 作为字符串来格式化一些内容,我不知道如何以我想要的方式获得它。

我还使用此查询 document.querySelectorAll(".page_content_post") 来获取我想要内容和子/孙节点的父元素。

提前致谢。

【问题讨论】:

  • 那里真的没有足够的信息继续下去。至少发布您尝试定位的元素的完整html(您只有innerHTML)。最好给出页面 HTML 结构的代表性示例,如果不是整个内容,或指向它的链接。

标签: javascript html selector scrape


【解决方案1】:

按类获取父级:

document.getElementsByClassName('.page_content_post').innerHTML

通过 ID 获取父级:

document.getElementById('#page_content_post').innerHTML

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2014-06-07
    • 2010-12-23
    • 2016-01-31
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-02-12
    相关资源
    最近更新 更多