【发布时间】:2018-12-01 14:54:56
【问题描述】:
我正在做一个项目,我必须检测数据集中存在的重复项。只是为了创建模型,我从 sklearn 获取了数据集 20newsgroup。
from sklearn.datasets import fetch_20newsgroups
categories = [
'alt.atheism',
'talk.religion.misc',
'comp.graphics',
'sci.space',
]
print("Loading 20 newsgroups dataset for categories:")
data_train = fetch_20newsgroups(subset='train', categories=categories,
shuffle=True, random_state=42)
data_test = fetch_20newsgroups(subset='test', categories=categories,
shuffle=True, random_state=42)
print('data loaded')
但是这个数据集有唯一的条目,所以我必须自己创建副本。这里的 data_train 是随机选择的用于训练模型的文档数组。
有谁知道随机复制这些文档需要做哪些更改,所以最后我会得到一个包含重复条目的数据集?
【问题讨论】:
-
请提供更多细节。
fetch_20newsgroups返回什么?data_train和data_test的结构如何? -
感谢@BDL 指出错误,我希望现在我的问题得到了完整的描述,即使没有,告诉我
-
第四次阅读后,我注意到 sklearn 不是来自您的命名空间,而是来自您正在使用的库。我想很多程序员都像我一样看待它,并假设我们正在谈论您编写的数据集。我现在用适当的库标签 (scikit-learn) 标记了您的问题,这样您就可以得到正确的专家来查看您的问题。未来:如果您提出一个非常具体的库问题,您应该用库标签标记它,并且您应该在问题中提及您正在使用该库。
-
您如何使用
data_train和data_test?也许有了更深入的了解,我们可以告诉您如何根据您的用例复制其中的一些数据。
标签: python scikit-learn