【发布时间】:2020-11-26 00:33:48
【问题描述】:
我正在尝试使用在其中实现 css 选择器的 scrapy 来获取预算。我可以在使用 xpath 时得到它,但如果是 css 选择器,我会迷路。我什至可以在使用 BeautifulSoup 并使用 next_sibling 时获取内容。
我试过了:
import requests
from scrapy import Selector
url = "https://www.imdb.com/title/tt0111161/"
res = requests.get(url)
sel = Selector(res)
# budget = sel.xpath("//h4[contains(.,'Budget:')]/following::text()").get()
# print(budget)
budget = sel.css("h4:contains('Budget:')::text").get()
print(budget)
我使用 css 选择器得到的输出:
Budget:
预期输出:
$25,000,000
html的相关部分:
<div class="txt-block">
<h4 class="inline">Budget:</h4>$25,000,000
<span class="attribute">(estimated)</span>
</div>
在scrapy中使用css选择器如何获取预算信息?
【问题讨论】:
-
css 选择器不考虑 HTML 之外的标签,xpath 考虑。
标签: python python-3.x web-scraping scrapy css-selectors