【发布时间】:2021-01-28 21:00:40
【问题描述】:
假设我想拆分如下所示的 NER 数据集:
Data: "Jokowi is the president of Indonesia"
Label: ['B-Person', 'O', 'O', 'O', 'O', 'Country']
是否有任何 python 库或算法可以确保训练和测试数据集的每个类分布相同? 任何建议将不胜感激
【问题讨论】:
-
您能否添加有关数据集的更多信息(可能是链接)以及有关数据架构的一些说明?
-
数据是这样的
https://raw.githubusercontent.com/rifoag/absa-coextraction/master/dataset/train_4k.txt但是你可以忽略第三列。数据是一个句子,包含对酒店的评论。我想按句子拆分并保持标签分层,但问题是标签处于令牌级别。谢谢你的提问
标签: python machine-learning train-test-split