【发布时间】:2020-10-06 11:01:57
【问题描述】:
我正在尝试使用 parquet 数据文件运行批量转换推理作业,但找不到任何东西。到处都说批量转换只接受 text/csv 或 json 格式类型。出于测试目的,我确实尝试在 AWS 账户中使用 lambda 函数来调用 parque 数据,但批量转换作业从未成功。出现 ClientError: 400,解析数据时出错。
request = \
{
"TransformJobName": batch_job_name,
"ModelName": model_name,
"BatchStrategy": "MultiRecord",
"TransformOutput": {
"S3OutputPath": batch_output
},
"TransformInput": {
"DataSource": {
"S3DataSource": {
"S3DataType": "S3Prefix",
"S3Uri": batch_input
}
},
"ContentType": "application/x-parquet",
"SplitType": "Line",
"CompressionType": "None"
},
"TransformResources": {
"InstanceType": "ml.m4.xlarge",
"InstanceCount": 1
}
}
client.create_transform_job(**request)
return "Done"
目前我正在尝试使用 parque 数据文件在本地运行 sagemaker 批量转换作业。我有可以在本地终端中运行以“服务”的 docker 映像,并且可以使用“localhost:8080/invocations”中的 REST API 服务 Postman 调用数据,使用“二进制”输入函数上传 parque 数据文件。它工作正常,我可以看到邮递员正文中填充的数据。但是,我无法使用 parque 数据进行批量转换。
有没有人成功使用 parquet 文件通过 sagemaker 批量转换进行转换和预测?
【问题讨论】:
标签: amazon-web-services transform batch-processing parquet amazon-sagemaker