【发布时间】:2018-03-14 05:45:21
【问题描述】:
基本上我有类似这样的html:
<div>
<p>
<b>1</b> Communication
</p>
<p>
<b>2</b> Errors
</p>
...
</div>
我正在尝试(使用 Scrapy)是这样的:
response.xpath("//div//p//text()")
但是这会返回一个列表,例如
[
"1",
"Communication",
"2",
"Errors"
]
我想要类似的东西:
[
"1 Communication",
"2 Errors"
]
这里的任何帮助将不胜感激。我试图找出一种忽略 b 标签的方法,但我找不到任何真正有效的方法。我不能只加入列表索引的原因是因为并非我需要解析的每个 html 都像这样工作。我想使用一些可以忽略 b 标签(如果它们存在)的东西,而在任何情况下都只是获取 p 中的文本。谢谢!
【问题讨论】: