【问题标题】:In Python how scrape page what content changes on each link?在 Python 中如何抓取页面每个链接上的哪些内容变化?
【发布时间】:2018-02-06 18:41:27
【问题描述】:

在 Python 3 中,我需要在 this pagethis 上抓取一个表

它是具有“Descrição”、“Tipo”和“Valor do Bem”列的表

我做了一个检查元素,表格是:

<table class="table table-stripped dvg-table responsive">

但是在显示请求的内容时,并没有出现这个项目

这是一个有政治概况的网站,所以标题会相对固定。永远在变化的底面

显然,标头中的站点链接就是请求找到的内容。但是表的内容以不同的方式访问。对于每个政治家,该网站是否会查看指向该表格的另一个链接?

我这样做了:

from bs4 import BeautifulSoup
import requests

requisicao = requests.get('http://divulgacandcontas.tse.jus.br/divulga/#/candidato/2010/14417/AC/10000000001/bens')
# requisicao.content
sopa = BeautifulSoup(requisicao.content, "html.parser")
sopa.find("table", {"class": "table table-stripped dvg-table responsive"})

请问,有人知道我如何访问此表吗?

【问题讨论】:

  • 评论提醒自己今天晚些时候回到我的电脑前回答
  • @JohnH,为此,您可以通过单击 dovnvote 箭头下方的星号将此问题标记为“最喜欢的问题”,它将在您的个人页面上的“收藏夹”选项卡中可用。再次单击以从收藏夹中删除问题
  • @andersson 感谢您的提醒

标签: python web-scraping


【解决方案1】:

您可以通过以下请求获取所需的数据:

import requests
import json

url = "http://divulgacandcontas.tse.jus.br/divulga/rest/v1/candidatura/buscar/2016/71072/2/candidato/250000004975"
response = requests.get(url)
print(response.json())

您可以获得更多具体信息

print(response.json()['bens'])

print(response.json()['partido'])

等等……

【讨论】:

  • 非常感谢。请问,你是怎么进入这个页面的? divulgacandcontas.tse.jus.br/divulga/rest/v1/candidatura/buscar/…
  • 谢谢。例如,在 Firefox 中,当访问“检查元素”时,我应该使用控制台菜单吗?哪个命令显示网站的 JSON 页面?
  • 您应该使用另一个选项卡。 “Inspector”和“Console”都不是。“Network”选项卡应该位于“Memory”和“Storage”选项卡之间……我猜:)
  • 尝试只启用 XHR 选项卡并重试 - 所需的 GET 请求应该在那里显示
  • 请问您使用的是哪个浏览器和版本?什么操作系统?
猜你喜欢
  • 2016-04-30
  • 1970-01-01
  • 2019-12-28
  • 1970-01-01
  • 1970-01-01
  • 2017-03-21
  • 2021-06-22
  • 2021-01-04
  • 1970-01-01
相关资源
最近更新 更多