【发布时间】:2015-11-12 16:08:06
【问题描述】:
我正在 Cheerio 和 nodejs 中制作一个爬虫,我试图提取一个没有结束标签的。它看起来像这样:
<item>
<link>http://www.example.com
<description>...</description>
</item>
我将如何提取该链接?尝试提取链接标签的文本不会返回任何内容
【问题讨论】:
标签: javascript node.js cheerio
我正在 Cheerio 和 nodejs 中制作一个爬虫,我试图提取一个没有结束标签的。它看起来像这样:
<item>
<link>http://www.example.com
<description>...</description>
</item>
我将如何提取该链接?尝试提取链接标签的文本不会返回任何内容
【问题讨论】:
标签: javascript node.js cheerio
您需要一些解析器来解析输入的脏 HTML 并对其进行清理。您可以使用充满脏 HTML 的字符串来提供 DOMPurify,它会返回一个带有干净 HTML 的字符串
关闭 dd 标记不存在,如图所示添加 这些干净的 HTML 现在可以用来加载cheerio More on DOMPurify
【讨论】: