【发布时间】:2012-04-07 07:59:46
【问题描述】:
我在 django 中使用 lxml.etree.parse 来解析来自外部 rss 提要的一些内容,并使用 findall 来解决命名空间问题。
我可以遍历刚刚找到的结果,但是我无法显示结果中的任何文本。
这是我试图从中抓取的 xml 文件的样子:
<feed xmlns="http://www.w3.org/2005/Atom">
<title>Open Library : Author Name</title>
<link href="http://www.somedomain.org/people/atom/author_name" rel="self"/>
<updated>2012-03-20T16:41:00Z</updated>
<author>
<name>somedomain.org</name>
</author>
<id>tag:somedomain.org,2007:/person_feed/123456</id>
<entry>
<link href="http://www.somedomain.org/roll_call/show/1234" rel="alternate"/>
<id>
tag:somedomain.org,2012-03-20:/roll_call_vote/1234
</id>
<updated>2012-03-20T16:41:00Z</updated>
<title>Once upon a time</title>
<content type="html">
This is a book full of words
</content>
</entry>
</feed>
这是我在 django 中的视图:
def openauthors(request):
tree = lxml.etree.parse("http://www.somedomain.org/people/atom/author_name")
namespace = "{http://www.w3.org/2005/Atom}"
listings = tree.findall("{http://www.w3.org/2005/Atom}entry")
listings_info = []
for listing in listings:
this_value = {
"link": listing.findtext("content"),
"title": listing.findtext("feed/content"),
"content": listing.findtext("content"),
}
listings_info.append(this_value)
json_listings = '{"listings":' + simplejson.dumps(listings_info) + '}'
if("callback" in request.GET.keys()):
callback = request.GET["callback"]
else:
callback = None
if(callback):
response = HttpResponse("%s(%s)" % (
callback,
simplejson.dumps(listings_info)
), mimetype="application/json"
)
else:
response = HttpResponse(json_listings, mimetype="application/json")
return response
我还尝试使用xpath 代替findtext 进行以下操作,但得到了相同的结果。
"link":listing.xpath("link/text()"),
"title":listing.xpath("entry/link/text()"),
"content":listing.xpath("content/text()"),
感谢任何帮助。
【问题讨论】:
标签: python xml django xpath elementtree