【发布时间】:2016-12-09 06:31:26
【问题描述】:
我正在研究数据预处理,我想以与 n-gram 类似的方式排列数据帧中的样本。例如,如果我的样本是:
1,2,3,4 1
0,4,2,1 1
0,2,3,5 1
1,5,5,5 0
6,5,2,1 0
我希望新的数据框看起来像这样:
1,2,3,4,0,4,2,1,0,2,3,5 1
0,4,2,1,0,2,3,5,1,5,5,5 0
0,2,3,5,1,5,5,5,6,5,2,1 0
目标变量基本上是最后一个附加样本(即第三个)的目标值。
我在 python 3 中使用 pandas 数据框和 scikit-learn 进行机器学习。
如何迭代数据帧样本并将它们并排连接?我试过concat,但每一行都变成Series类型,因此没有连接。
为了进一步参考,我之前在同一作品上问了一个问题here。
任何建议将不胜感激。
【问题讨论】:
-
我应该只使用熊猫吗?如果没有,我已经使用列表和 groupby 制定了解决方案。如果你愿意,我可以分享。
标签: python pandas scikit-learn