【发布时间】:2015-03-04 16:17:56
【问题描述】:
当我使用下面的代码时,它将一个 div 拆分为数组中的十五个项目。问题是我希望这篇文章作为数组中的一项。这可能是因为<br> 标签而发生的,但我不知道如何解决。
from lxml import html
import requests
page = requests.get('http://www.city-data.com/forum/economics/2056372-minimum-wage-vs-liveable-wage.html')
tree = html.fromstring(page.text)
details = tree.xpath('//div[contains(@id, "post_message_33583236")]/text()')
print len(details) #prints 15
【问题讨论】:
标签: python parsing web-scraping lxml lxml.html