【发布时间】:2014-03-29 22:53:45
【问题描述】:
我正在尝试提取 NextBus 数据,特别是此处看到的实时公交 GPS:http://webservices.nextbus.com/service/publicXMLFeed?command=vehicleLocations&a=sf-muni&r=N&t=0
其中有如下标签:
<vehicle id="1534" routeTag="N" dirTag="N__OB1" lat="37.76931" lon="-122.43249"
secsSinceReport="99" predictable="true" heading="265" speedKmHr="37"/>
我正在学习 python,并且已经成功地根据属性提取了一个标签。但我正在为除 id 之外的任何属性而苦苦挣扎。
所以这行得通:
soup.findAll("vehicle", {"id":"1521"})[1]
但这会返回一个空集
soup.findAll("vehicle", {"routeTag":"N"})
有什么原因吗?
另外,正如我所提到的,我是 Python 新手,所以如果你有最喜欢的抓取教程,请随时发表评论!
【问题讨论】:
-
除非您明确告诉 BeautifulSoup 解析为 XML(仅适用于安装了
lxml),否则所有内容都小写,因为在 HTML 标记中匹配不区分大小写。
标签: python xml beautifulsoup