【问题标题】:Cheerio extract a link without a closing tagCheerio 提取没有结束标签的链接
【发布时间】:2015-11-12 16:08:06
【问题描述】:

我正在 Cheerio 和 nodejs 中制作一个爬虫,我试图提取一个没有结束标签的。它看起来像这样:

<item>
   <link>http://www.example.com
   <description>...</description>
</item>

我将如何提取该链接?尝试提取链接标签的文本不会返回任何内容

【问题讨论】:

    标签: javascript node.js cheerio


    【解决方案1】:

    您需要一些解析器来解析输入的脏 HTML 并对其进行清理。您可以使用充满脏 HTML 的字符串来提供 DOMPurify,它会返回一个带有干净 HTML 的字符串

    Example of clean HTML

    关闭 dd 标记不存在,如图所示添加 这些干净的 HTML 现在可以用来加载cheerio More on DOMPurify

    【讨论】:

    • 你好普拉奈。请不要链接到示例答案。在您的答案中包含该 HTML 会更有帮助。
    猜你喜欢
    • 2019-04-21
    • 2020-09-27
    • 2023-04-01
    • 2019-04-28
    • 1970-01-01
    • 2018-02-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多