【发布时间】:2020-12-08 08:10:50
【问题描述】:
我有以下格式的大型数据框:
name ingredient colour similarity ids city country proba
pesto ba g 0.93 4 ve it 0.85
pesto sa p 0.93 3 to ca 0.92
pesto li y 0.99 6 lo en 0.81
pasta fl w 0.88 2 de in 0.8
pasta wa b 0.93 1 da te 0.84
egg eg w 1 5 ro ja 0.99
我想通过similarity 对所有name 进行排名(更高的相似性将具有更高的排名,如果 2 行具有相同的相似性,那么它们的附加顺序无关紧要)然后将所有重复的行合并在一起
输出如下所示:
name ingredient colour similarity ids city country proba
pesto ['li', 'ba', 'sa'] ['y', 'g', 'p'] [0.99, 0.93, 0.93] [6, 4, 3] ['lo', 've', 'to'] ['en', 'it', 'ca'] [0.81, 0.85, 0.92]
pasta ['wa', 'fl'] ['b', 'w'] [0.93, 0.88] [1, 2] ['da', 'de'] ['te', 'in'] [0.84, 0.8]
egg ['eg'] ['w'] [1] [5] ['ro'] ['ja'] [0.99]
【问题讨论】:
-
哎呀,最后我想念
a和o,对不起
标签: python pandas numpy dataframe group-by