【发布时间】:2018-02-09 08:39:35
【问题描述】:
我有一个主题数据集,每个主题在我的 pandas 数据框中都有许多行(每次测量都是一行,一个主题可以测量几次)。我想将我的数据拆分为训练集和测试集,但我不能随机拆分,因为所有主题的测量值都是依赖的(不能将同一主题放入训练和测试中)。你会如何重新喜欢这个?我有一个 pandas 数据框,每个主题都有不同数量的测量值。
编辑:我的数据包括每一行的主题编号,我希望尽可能接近 0.8/0.2。
【问题讨论】:
-
不幸的是我不能。我可以举个例子:3个受试者的数据,受试者1测量3次,受试者2测量4次,受试者3测量3次。总共 10 行,我想将它们尽可能地分开,比如 0.8/0.2。因此,培训将包括 2 名受试者进行 7 次测量,而测试将包括 1 名受试者进行 3 次测量。
-
你怎么知道一个主题从哪里开始和停止?是否有列,或者它们是多索引的?
-
在我上面的编辑中,我有一列带有主题编号,这样你就可以知道每一行是哪个主题。
标签: python pandas train-test-split