【发布时间】:2020-08-19 04:46:48
【问题描述】:
我使用 Google NLP 实体提取创建了数据集,并上传了输入数据(训练、测试、验证 jsonl 文件),例如 NLP 格式,将存储在 Google 存储桶中。
示例注释:
{
"annotations": [{
"text_extraction": {
"text_segment": {
"end_offset": 10,
"start_offset": 0
}
},
"display_name": "Name"
}],
"text_snippet": {
"content": "JJ's Pizza\n "
}
} {
"annotations": [{
"text_extraction": {
"text_segment": {
"end_offset": 9,
"start_offset": 0
}
},
"display_name": "City"
}],
"text_snippet": {
"content": "San Francisco\n "
}
}
这是预测标签为“名称”、“城市”和“州”的输入文本
加利福尼亚州旧金山最好的 J J's 比萨
结果如下截图,
我预计预测结果如下,
名称:JJ's Pizza 城市:旧金山 州:加州
【问题讨论】:
-
您能解释一下您是如何训练模型的吗?您在训练集中使用了多少样本?
-
@Kim 模型是 Google Auto-ml NLP。我在训练集中有 150 个样本(训练、测试、验证)。
-
它只返回名称吗?还是您也有标签 City 和 State 但没有任何价值?尽管如此,我想 150 个样本对于训练任何模型来说都太少了。尝试更多数据,可能会改变结果。
-
@IMB 是的,它只返回名称,因为我将名称作为数据集中的第一个标签,这些标签 City 和 state 具有值
-
我只是想了解您所说的“城市”和“州”标签的真正含义是什么!从上图中我们可以看到,只有值为 1 的“名称”标签,与其他标签一样,从未存在过。我真的会建议你在你的模型中添加更多的训练数据,在你的测试中添加更多的内容。
标签: google-cloud-platform nlp automl google-cloud-nl google-natural-language