【发布时间】:2013-06-30 13:06:51
【问题描述】:
我正在使用 BeautifulSoup 4 (bs4) 来读取 XML RSS 提要,并且遇到了以下条目。我正在尝试阅读 <content:encoded><![CDATA[...]]</content> 标签中包含的内容:
<item>
<title>Foobartitle</title>
<link>http://www.acme.com/blah/blah.html</link>
<category><![CDATA[mycategory]]></category>
<description><![CDATA[The quick brown fox jumps over the lazy dog]]></description>
<content:encoded>
<![CDATA[<p><img class="feature" src="http://www.acme.com/images/image.jpg" alt="" /></p>]]>
</content:encoded>
</item>
据我了解,这种格式是RSS content module 的一部分,并且很常见。
我想隔离<content:encoded> 标记,然后读取CDATA 内容。
为免生疑问,结果将是<p><img class="feature" src="http://www.acme.com/images/image.jpg" alt="" /></p>。
我查看了 this、this 和 this stackoverflow 帖子,但我无法弄清楚如何完成这项工作,因为它们与我的案例没有直接关系。
我正在使用带有 bs4 的 lxml XML 解析器。
有什么建议吗?谢谢!
【问题讨论】:
-
您引用的答案对您不起作用的原因是因为 bs4 将 CDATA 标记剥离,如此处所述stackoverflow.com/questions/16426507/…,因此在制作汤后对 CDATA 的任何引用都是毫无意义的。 BeautifulSoup 3 不这样做,因此您参考中给出的答案适用于该版本。
标签: python rss beautifulsoup