用python列出谷歌驱动器中的10000多个文件答案

【问题标题】：List more than 10000 files in google drive with python用python列出谷歌驱动器中的10000多个文件
【发布时间】：2021-06-22 14:18:09
【问题描述】：

我有一个包含 10000 多个子文件夹的 google 驱动器文件夹。我正在尝试使用此代码列出这些子文件夹：

import pickle
import os.path
import io
from googleapiclient.discovery import build
from google_auth_oauthlib.flow import InstalledAppFlow
from google.auth.transport.requests import Request
from numpy import cumproduct
import pandas as pd
import gdown
from pyasn1.type.constraint import ContainedSubtypeConstraint
import requests
from googleapiclient.http import MediaIoBaseDownload
import httplib2

SCOPES = ['https://www.googleapis.com/auth/drive']

creds = None
if os.path.exists('token.pickle'):
    with open('token.pickle', 'rb') as token:
        creds = pickle.load(token)
if not creds or not creds.valid:
    if creds and creds.expired and creds.refresh_token:
            creds.refresh(Request())
    else:
        flow = InstalledAppFlow.from_client_secrets_file(
                'test.json', SCOPES)
        creds = flow.run_local_server(port=0)
    with open('token.pickle', 'wb') as token:
        pickle.dump(creds, token)

service = build('drive', 'v3', credentials=creds)

folder_id='valid folder id'
query=f"parents = '{folder_id}'"

response=service.files().list(q=query).execute()
files=response.get('files')
nextPageToken=response.get('nextPageToken')

while nextPageToken:
    response=service.files().list(q=query).execute()
    files.extend(response.get('files'))
    nextPageToken=response.get('nextPageToken')

df = pd.DataFrame(files)
print(df)

在调试时，我看到它只收到了 100 个子文件夹的响应。如何修改此脚本以列出所有 10000 多个子文件夹？

【问题讨论】：

标签： python-3.x google-api google-drive-api

【解决方案1】：

您似乎忘记在 while 循环内的 files.list() 请求中使用 nextPageToken 值设置 pageToken 参数。

应该是这样的：

while nextPageToken:
    response=service.files().list(pageToken=nextPageToken, q=query).execute()
    files.extend(response.get('files'))
    nextPageToken=response.get('nextPageToken')

您可能还需要考虑增加pageSize 参数。pageSize 是每页返回的最大文件数。可接受的值为 1 到 1000，包括 1 到 1000。（默认值：100）。见File.List() parameters

您的代码（带有 pageSize）：

service = build('drive', 'v3', credentials=creds)

folder_id='valid folder id'
query=f"parents = '{folder_id}'"

response=service.files().list(pageSize=1000, q=query).execute()
files=response.get('files')
nextPageToken=response.get('nextPageToken')

while nextPageToken:
    response=service.files().list(pageSize=1000, pageToken=nextPageToken, q=query).execute()
    files.extend(response.get('files'))
    nextPageToken=response.get('nextPageToken')

另一个示例实现：

service = build('drive', 'v3', credentials=creds)
    
folder_id='valid folder id'
query=f"parents = '{folder_id}'"
page_token = None
my_files = list()
while True:
    results = service.files().list(pageSize=1000, pageToken=page_token, q=query).execute()
    files = results.get('files', [])
    my_files.extend(files)
    page_token = results.get('nextPageToken', None)
    if page_token is None:
        break

【讨论】：

如果您遇到一些问题，请告诉我。由于资源有限，我无法运行建议的解决方案
嘿@RonM，带有“您的代码与页面大小”的那个效果很好。非常感谢您的帮助，我将使用这个。您提出的“另一个示例实现”只返回 180 个文件，我不知道为什么。再次感谢
很高兴听到这个消息。也感谢您的反馈