【发布时间】:2012-07-13 02:57:13
【问题描述】:
如何检索标签中包含的所有 HTML?
hxs = HtmlXPathSelector(response)
element = hxs.select('//span[@class="title"]/')
也许是这样的:
hxs.select('//span[@class="title"]/html()')
编辑:
如果我查看documentation,我只会看到返回新XPathSelectorList 的方法,或者只是标签内的原始文本。
我想检索的不是新列表或文本,而是标签内的 源代码 HTML。
例如:
<html>
<head>
<title></title>
</head>
<body>
<div id="leexample">
justtext
<p class="ihatelookingforfeatures">
sometext
</p>
<p class="yahc">
sometext
</p>
</div>
<div id="lenot">
blabla
</div>
an awfuly long example for this.
</body>
</html>
我想做一个像hxs.select('//div[@id="leexample"]/html()') 这样的方法,它会返回它里面的HTML,像这样:
justtext
<p class="ihatelookingforfeatures">
sometext
</p>
<p class="yahc">
sometext
</p>
我希望我消除了围绕我的问题的歧义。
如何在 Scrapy 中从 HtmlXPathSelector 获取 HTML? (也许是scrapy范围之外的解决方案?)
【问题讨论】:
-
“检索所有 HTML” 是什么意思?你需要展示一个例子。
-
我最初的想法是递归遍历标签内的所有标签,将它们复制为 html,但这太复杂了,一定有人想到了更简单的东西..