Cheerio 提取没有结束标签的链接

【问题标题】：Cheerio extract a link without a closing tagCheerio 提取没有结束标签的链接
【发布时间】：2015-11-12 16:08:06
【问题描述】：

我正在 Cheerio 和 nodejs 中制作一个爬虫，我试图提取一个没有结束标签的。它看起来像这样：

<item>
   <link>http://www.example.com
   <description>...</description>
</item>

我将如何提取该链接？尝试提取链接标签的文本不会返回任何内容

【问题讨论】：

【解决方案1】：

您需要一些解析器来解析输入的脏 HTML 并对其进行清理。您可以使用充满脏 HTML 的字符串来提供 DOMPurify，它会返回一个带有干净 HTML 的字符串

关闭 dd 标记不存在，如图所示添加这些干净的 HTML 现在可以用来加载cheerio More on DOMPurify

【讨论】：