【发布时间】:2014-08-19 00:51:30
【问题描述】:
我有很多<b>标签的情况:
<b>12</b>
<b>13</b>
<b>14</b>
<b></b>
<b>121</b>
如您所见,倒数第二个标签是空的。当我打电话时:
sel.xpath('b/text()').extract()
这给了我:
['12', '13', '14', '121']
我想要:
['12', '13', '14', '', '121']
有没有办法获取空值?
我目前的工作是调用:
sel.xpath('b').extract()
然后自己解析每个html标签(空标签在这里,就是我想要的)。
【问题讨论】:
-
我不确定这是一个解决方法,我认为这是你必须做的。您正在区分
<b/>和<b></b>,而XML 没有用于区分的语义。空元素b存在,但在任何一种情况下都没有匿名文本节点子节点。 -
很难搜索证明某些东西不存在的文档。 :(
标签: python html xpath web-scraping scrapy