【问题标题】:Reading <content:encoded> tags using BeautifulSoup 4使用 BeautifulSoup 4 读取 <content:encoded> 标签
【发布时间】:2013-06-30 13:06:51
【问题描述】:

我正在使用 BeautifulSoup 4 (bs4) 来读取 XML RSS 提要,并且遇到了以下条目。我正在尝试阅读 &lt;content:encoded&gt;&lt;![CDATA[...]]&lt;/content&gt; 标签中包含的内容:

<item>
    <title>Foobartitle</title>
    <link>http://www.acme.com/blah/blah.html</link>
    <category><![CDATA[mycategory]]></category>
    <description><![CDATA[The quick brown fox jumps over the lazy dog]]></description>
    <content:encoded>
        <![CDATA[<p><img class="feature" src="http://www.acme.com/images/image.jpg" alt="" /></p>]]>
    </content:encoded>
</item>

据我了解,这种格式是RSS content module 的一部分,并且很常见。

我想隔离&lt;content:encoded&gt; 标记,然后读取CDATA 内容。 为免生疑问,结果将是&lt;p&gt;&lt;img class="feature" src="http://www.acme.com/images/image.jpg" alt="" /&gt;&lt;/p&gt;

我查看了 thisthisthis stackoverflow 帖子,但我无法弄清楚如何完成这项工作,因为它们与我的案例没有直接关系。

我正在使用带有 bs4 的 lxml XML 解析器。

有什么建议吗?谢谢!

【问题讨论】:

  • 您引用的答案对您不起作用的原因是因为 bs4 将 CDATA 标记剥离,如此处所述stackoverflow.com/questions/16426507/…,因此在制作汤后对 CDATA 的任何引用都是毫无意义的。 BeautifulSoup 3 不这样做,因此您参考中给出的答案适用于该版本。

标签: python rss beautifulsoup


【解决方案1】:
from bs4 import BeautifulSoup

doc = ...
soup = BeautifulSoup(doc, "xml")  # Directs bs to use lxml

有趣的是,BeautifulSoup/lxml 改变了标签,明显地从 content:encoded 变成了简单的 encoded

>>> print soup
<?xml version="1.0" encoding="utf-8"?>
<item>
<title>Foobartitle</title>
<link>http://www.acme.com/blah/blah.html</link>
<category>mycategory</category>
<description>The quick brown fox jumps over the lazy dog</description>
<encoded>
        &lt;p&gt;&lt;img class="feature" src="http://www.acme.com/images/image.jpg" alt="" /&gt;&lt;/p&gt;
    </encoded>
</item>

从那里,它应该只解析孩子。

for encoded_content in soup.findAll("encoded"):
    for child in encoded_content.children:
        print child

这导致&lt;p&gt;&lt;img class="feature" src="http://www.acme.com/images/image.jpg" alt="" /&gt;&lt;/p&gt;。请注意,这似乎是 bs4.element.NavigableString 的一个实例,而不是您链接答案中的 CData。

【讨论】:

  • 奥利弗,感谢您的快速回复!奇怪的内容:编码 -> 编码标签更改是我所缺少的。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-08-10
  • 1970-01-01
  • 2012-07-22
  • 2016-04-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多