【问题标题】:Information regarding Amazon Sagemaker groundtruth有关 Amazon Sagemaker groundtruth 的信息
【发布时间】:2019-09-23 23:38:35
【问题描述】:

我正在尝试使用私人劳动力运行一个简单的 GroundTruth 标记作业以进行文本分类。由于我是 AWS GroundTruth 的新手,所以我有一些问题:

  1. 如果我使用私人劳动力,我可以分配到标签工作的最大人数是多少?定价成本是否取决于私人劳动力中使用的人数。

  2. 我有一个带标签的数据集(文本分类),我将它上传到 S3 存储桶,如果我向它上传另一个未标记的数据,AutoML 会标记提供的原始数据吗?如果没有,我如何使用已经标记的数据集来标记新的原始数据/

  3. Groundtruth 文档说,它需要至少 1000 个物体才能被人类标记。它是指所有类的 1000 个对象,还是单个类的 1000 个对象?如果我手动标记 1000+ 个对象,AutoML 会再标记多少个对象,或者 AutoML 最多可以标记多少个对象?

【问题讨论】:

    标签: amazon-web-services amazon-sagemaker


    【解决方案1】:

    我是 Amazon SageMaker Ground Truth 的产品经理,我很乐意回答您的问题。以下是我的回答:

    [1] 您的自有品牌员工队伍可大可小,随心所欲。定价取决于您的标签工作人员的规模。

    [2] 您可以在此处了解有关如何引入“部分”标记数据集的更多信息:https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html#sms-reusing-data-newdata

    您还可以使用从之前的标签作业中训练出来的 ML 模型。在这里了解更多; https://aws.amazon.com/blogs/machine-learning/amazon-sagemaker-ground-truth-using-a-pre-trained-model-for-faster-data-labeling/

    [3] 澄清一下,您需要 1,000 个数据集对象来启动自动标记作业,但是这 1,000 个对象中的一些可以自动标记(百分比取决于您的数据和用例)。您的类中有 1,000 个对象 - 即除了拥有 1,000 个文本数据集对象之外没有其他要求。

    您可以通过这篇博文了解更多关于自动标记机制的信息:https://aws.amazon.com/blogs/machine-learning/annotate-data-for-less-with-amazon-sagemaker-ground-truth-and-automated-data-labeling/

    【讨论】:

    • 为什么无法删除标签作业?这是一个非常基本的功能,不支持它似乎很奇怪。
    猜你喜欢
    • 2020-09-04
    • 1970-01-01
    • 2019-07-06
    • 1970-01-01
    • 2019-07-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多