【发布时间】:2020-12-19 14:30:06
【问题描述】:
我上传了一个包含 4000 条记录的文件,用于批量预测。数据包含 86 个变量,这是一个二元分类任务。我将 Cloud Storage 指定为我的输出目标。批量预测返回的 CSV 文件只有 3730 条记录。我想知道为什么输出中缺少一些记录。错误文件是空的,所以我不知道。你有什么建议吗?
【问题讨论】:
标签: google-cloud-platform google-cloud-automl
我上传了一个包含 4000 条记录的文件,用于批量预测。数据包含 86 个变量,这是一个二元分类任务。我将 Cloud Storage 指定为我的输出目标。批量预测返回的 CSV 文件只有 3730 条记录。我想知道为什么输出中缺少一些记录。错误文件是空的,所以我不知道。你有什么建议吗?
【问题讨论】:
标签: google-cloud-platform google-cloud-automl
当您的某些输入数据损坏、丢失或格式与您的模型不兼容时,您可能会遇到这种情况。完整的要求可以在preparing your training data 页面上找到。
因此,我建议您检查您的输入文件,否则您的模型将继续生成错误。此外,请查看以下paragraphs:Clean up missing, incomplete, and inconsistent data 和Analyze your data after importing:
您还应该检查每列的可空性,这决定了 列是否可以有缺失值或 NULL 值。
此外,如果批量大小很大,失败的预测可能比您预期的要多。
【讨论】:
我遇到了同样的问题 - 缺少预测和空的错误表。我正在从 GCS 加载 csv。
我已经验证了这些列是可空的。我在可空列中有混合类型 str 和 np.nan。会不会是这个问题?
谢谢!
【讨论】: