【发布时间】:2018-01-22 19:01:59
【问题描述】:
我有一个使用 =IMPORTXML 函数从网站获取数据的 Google 表格。我还有一个 Python 脚本,可以从 Google 表格中获取数据。整个事情都在工作,但我现在正试图简化它。整个过程始于 Google 表格中的手动过程。它现在是自动化的,但它并不漂亮。
两个具体问题:
1) 使用 Python 抓取网站的最佳方法是什么?我想让这一切都在一个脚本中运行。 Beautiful Soup 这样的东西会是一个好的解决方案吗?
2) 目前,对 google API 的查询被编码为分别运行每个查询(它不是子函数,但我想把它变成一个)。它基本上复制了quickstart script:
spreadsheetId = 'xxxx'
rangeName = 'xxxx'
result = service.spreadsheets().values().get(spreadsheetId=spreadsheetId,range=rangeName).execute()
values = result.get('values', [])
variable = ''
for row in values:
variable = '%s' % (row[0])
if variable != storedVariable:
print ('Condition not met...')
return;
#Do a thing
我的代码有不同版本的设置变量,根据存储的值检查它,如果存在正确的条件则继续。有没有更简单的方法来解析从 API 调用返回的值,以便将其设置为变量?
【问题讨论】:
标签: python web-scraping google-sheets beautifulsoup google-sheets-api