【问题标题】:List more than 10000 files in google drive with python用python列出谷歌驱动器中的10000多个文件
【发布时间】:2021-06-22 14:18:09
【问题描述】:

我有一个包含 10000 多个子文件夹的 google 驱动器文件夹。我正在尝试使用此代码列出这些子文件夹:

import pickle
import os.path
import io
from googleapiclient.discovery import build
from google_auth_oauthlib.flow import InstalledAppFlow
from google.auth.transport.requests import Request
from numpy import cumproduct
import pandas as pd
import gdown
from pyasn1.type.constraint import ContainedSubtypeConstraint
import requests
from googleapiclient.http import MediaIoBaseDownload
import httplib2

SCOPES = ['https://www.googleapis.com/auth/drive']

creds = None
if os.path.exists('token.pickle'):
    with open('token.pickle', 'rb') as token:
        creds = pickle.load(token)
if not creds or not creds.valid:
    if creds and creds.expired and creds.refresh_token:
            creds.refresh(Request())
    else:
        flow = InstalledAppFlow.from_client_secrets_file(
                'test.json', SCOPES)
        creds = flow.run_local_server(port=0)
    with open('token.pickle', 'wb') as token:
        pickle.dump(creds, token)

service = build('drive', 'v3', credentials=creds)

folder_id='valid folder id'
query=f"parents = '{folder_id}'"

response=service.files().list(q=query).execute()
files=response.get('files')
nextPageToken=response.get('nextPageToken')

while nextPageToken:
    response=service.files().list(q=query).execute()
    files.extend(response.get('files'))
    nextPageToken=response.get('nextPageToken')

df = pd.DataFrame(files)
print(df)

在调试时,我看到它只收到了 100 个子文件夹的响应。如何修改此脚本以列出所有 10000 多个子文件夹?

【问题讨论】:

    标签: python-3.x google-api google-drive-api


    【解决方案1】:

    您似乎忘记在 while 循环内的 files.list() 请求中使用 nextPageToken 值设置 pageToken 参数。

    应该是这样的:

    while nextPageToken:
        response=service.files().list(pageToken=nextPageToken, q=query).execute()
        files.extend(response.get('files'))
        nextPageToken=response.get('nextPageToken')
    

    您可能还需要考虑增加pageSize 参数。pageSize 是每页返回的最大文件数。可接受的值为 1 到 1000,包括 1 到 1000。 (默认值:100)。见File.List() parameters

    您的代码(带有 pageSize):

    service = build('drive', 'v3', credentials=creds)
    
    folder_id='valid folder id'
    query=f"parents = '{folder_id}'"
    
    response=service.files().list(pageSize=1000, q=query).execute()
    files=response.get('files')
    nextPageToken=response.get('nextPageToken')
    
    while nextPageToken:
        response=service.files().list(pageSize=1000, pageToken=nextPageToken, q=query).execute()
        files.extend(response.get('files'))
        nextPageToken=response.get('nextPageToken')
    

    另一个示例实现:

    service = build('drive', 'v3', credentials=creds)
        
    folder_id='valid folder id'
    query=f"parents = '{folder_id}'"
    page_token = None
    my_files = list()
    while True:
        results = service.files().list(pageSize=1000, pageToken=page_token, q=query).execute()
        files = results.get('files', [])
        my_files.extend(files)
        page_token = results.get('nextPageToken', None)
        if page_token is None:
            break
    

    【讨论】:

    • 如果您遇到一些问题,请告诉我。由于资源有限,我无法运行建议的解决方案
    • 嘿@RonM,带有“您的代码与页面大小”的那个效果很好。非常感谢您的帮助,我将使用这个。您提出的“另一个示例实现”只返回 180 个文件,我不知道为什么。再次感谢
    • 很高兴听到这个消息。也感谢您的反馈
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-11-13
    • 1970-01-01
    • 2019-07-21
    • 2018-09-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多