【发布时间】:2018-04-10 12:03:38
【问题描述】:
和以前没有太大区别。我们可以从样本数据开始:
数据帧1:
Name No. Comment
Bob 2123320 Doesn't Matter
Joe 2832883 Whatever
John 2139300 Irrelevant
Bob 2123320 Something
John 2234903 Regardless
数据帧2:
Name No. Report
Bob 2123320 Great
Joe 2832883 Solid
John 2139300 Awesome
Bob 2123320 Good
John 2234903 Perfect
我正在寻找一种方法来制作一个如下所示的新 excel 文件(预期结果):
-----------------------2139300--------------------- 2234903----
Name Irrelevant Whatever Regardless Awesome Solid Perfect Irrelevant \
John 1 0 0 1 0 0 0
--------------------2234903-------------
Name Whatever Regardless Awesome Solid Perfect
John 0 1 0 0 1
(注意:不需要有编号的头衔,我只是为了清楚起见和稍后解释)。
基本上我所做的是,与另一个非常相似,查找每个名称,然后为每个名称查找它有多少不同的编号。然后它会选择具有一定数量不同编号的人。 现在,我要查找一组“评论”和“报告” (分别为{Irrelevant,Whatever,Anything}和{Awesome,Solid,Perfect} [注意:这只是评论/报告的一个子集]),对于这些,如果出现,我希望有一个 1 或 0,但仅适用于每个否. 换句话说,我希望每个编号都有一个“组”列,标题为 {Irrelevant, What, 不管} 和 {Awesome, Solid, Perfect} 并且对于每个值,如果它出现在这个人身上,我想要一个 1该特定编号,如果没有,则为 0。
例如,在这个矩阵中,我们只看到 John,因为他是唯一一个拥有超过 1 个不同编号的人。在第一组列中,只有 Irrelevant 和 Awesome 的值为 1,而其余列的值为 0,而在第二组中仅组无论和完美将有 1。它所做的只是列出了我想要的所有评论/报告({Irrelevant,Whatever,Anything} 和 {Awesome,Solid,Perfect}),只列出一个编号,然后找出每个评论/报告是否出现(1 或 0)。然后,它在一个新的“组”列中重复所有所需的评论/报告,以获得新的编号,并为这个新编号找出现在出现的评论/报告。
如果有任何不清楚的地方,请告诉我,非常感谢您的帮助。
谢谢。
【问题讨论】:
标签: python excel pandas feature-extraction