Python：使用 petastorm 读取存储在 s3 上的 Parquet 文件会生成连接警告答案

【问题标题】：Python: Reading Parquet files stored on s3 using petastorm generates connection warningsPython：使用 petastorm 读取存储在 s3 上的 Parquet 文件会生成连接警告
【发布时间】：2019-05-14 17:14:54
【问题描述】：

我有一个 Tensorflow 模型，我想用存储在 s3 上的 parquet 文件来提供它。我正在使用petastorm 从 s3 查询这些文件，并且由于petastorm.tf_utils.make_petastorm_dataset，查询结果存储为 Tensorflow 数据集。

这是我使用的代码（主要灵感来自这个线程Tensorflow Dataset API: input pipeline with parquet files）：

import s3fs
from pyarrow.filesystem import S3FSWrapper
from petastorm.reader import Reader
from petastorm.tf_utils import make_petastorm_dataset

dataset_url = "analytics.xxx.xxx" #s3 bucket name

fs = s3fs.S3FileSystem()
wrapped_fs = S3FSWrapper(fs)

with Reader(pyarrow_filesystem=wrapped_fs, dataset_path=dataset_url) as reader:
    dataset = make_petastorm_dataset(reader)

这很好用，除了它会生成 20 多行连接警告：

W0514 18:56:42.779965 140231344908032 connectionpool.py:274] Connection pool is full, discarding connection: s3.eu-west-1.amazonaws.com
W0514 18:56:42.782773 140231311337216 connectionpool.py:274] Connection pool is full, discarding connection: s3.eu-west-1.amazonaws.com
W0514 18:56:42.854569 140232468973312 connectionpool.py:274] Connection pool is full, discarding connection: s3.eu-west-1.amazonaws.com
W0514 18:56:42.868761 140231328122624 connectionpool.py:274] Connection pool is full, discarding connection: s3.eu-west-1.amazonaws.com
W0514 18:56:42.885518 140230816429824 connectionpool.py:274] Connection pool is full, discarding connection: s3.eu-west-1.amazonaws.com
...

根据这个帖子urllib3 connectionpool - Connection pool is full, discarding connection，它肯定与urllib3有关，但我想不出办法摆脱这些警告。

有人遇到过这个问题吗？

【问题讨论】：

标签： python tensorflow urllib3 petastorm

【解决方案1】：

在 Github 上得到了答案：https://github.com/uber/petastorm/issues/376。使用boto3的连接池设置，增加max_pool_connections：

fs = s3fs.S3FileSystem(config_kwargs = {'max_pool_connections': 50})

【讨论】：