生成与世界杯锦标赛组的配对答案

【问题标题】：Generate pairings within World Cup tournament groups生成与世界杯锦标赛组的配对
【发布时间】：2015-08-16 20:44:54
【问题描述】：

我为 2015 年 FIFA 女足世界杯汇总了一些数据：

import pandas as pd

df = pd.DataFrame({
    'team':['Germany','USA','France','Japan','Sweden','England','Brazil','Canada','Australia','Norway','Netherlands','Spain',
       'China','New Zealand','South Korea','Switzerland','Mexico','Colombia','Thailand','Nigeria','Ecuador','Ivory Coast','Cameroon','Costa Rica'],
    'group':['B','D','F','C','D','F','E','A','D','B','A','E','A','A','E','C','F','F','B','D','C','B','C','E'],
    'fifascore':[2168,2158,2103,2066,2008,2001,1984,1969,1968,1933,1919,1867,1847,1832,1830,1813,1748,1692,1651,1633,1485,1373,1455,1589],
    'ftescore':[95.6,95.4,92.4,92.7,91.6,89.6,92.2,90.1,88.7,88.7,86.2,84.7,85.2,82.5,84.3,83.7,81.1,78.0,68.0,85.7,63.3,75.6,79.3,72.8]
    })

df.groupby(['group', 'team']).mean()

现在我想生成一个新的数据框，其中包含来自df 的每个group 中的 6 个可能的配对或匹配，格式如下：

group    team1        team2
A        Canada       China
A        Canada       Netherlands
A        Canada       New Zealand
A        China        Netherlands
A        China        New Zealand
A        Netherlands  New Zealand
B        Germany      Ivory Coast
B        Germany      Norway
...

有什么简洁明了的方法来做到这一点？我可以通过每个group 和team 执行一堆循环，但我觉得应该有一个更清晰的矢量化方式来使用pandas 和split-apply-combine 范例。

编辑：我也欢迎任何 R 答案，认为在这里比较 R 和 Pandas 方式会很有趣。添加了r 标签。

这是 R 形式的数据，根据评论中的要求：

team <- c('Germany','USA','France','Japan','Sweden','England','Brazil','Canada','Australia','Norway','Netherlands','Spain',
      'China','New Zealand','South Korea','Switzerland','Mexico','Colombia','Thailand','Nigeria','Ecuador','Ivory Coast','Cameroon','Costa Rica')
group <- c('B','D','F','C','D','F','E','A','D','B','A','E','A','A','E','C','F','F','B','D','C','B','C','E')
fifascore <- c(2168,2158,2103,2066,2008,2001,1984,1969,1968,1933,1919,1867,1847,1832,1830,1813,1748,1692,1651,1633,1485,1373,1455,1589)
ftescore <- c(95.6,95.4,92.4,92.7,91.6,89.6,92.2,90.1,88.7,88.7,86.2,84.7,85.2,82.5,84.3,83.7,81.1,78.0,68.0,85.7,63.3,75.6,79.3,72.8)

df <- data.frame(team, group, fifascore, ftescore)

【问题讨论】：

组pd.DataFrame(({grp: tuple(combinations(team, 2)) for grp, team in df.groupby("group")["team"]}))访问可能会更好

标签： python r pandas plyr split-apply-combine

【解决方案1】：

这是两行解决方案：

import itertools

for grpname,grpteams in df.groupby('group')['team']:
    # No need to use grpteams.tolist() to convert from pandas Series to Python list
    print list(itertools.combinations(grpteams, 2))

[('Canada', 'Netherlands'), ('Canada', 'China'), ('Canada', 'New Zealand'), ('Netherlands', 'China'), ('Netherlands', 'New Zealand'), ('China', 'New Zealand')]
[('Germany', 'Norway'), ('Germany', 'Thailand'), ('Germany', 'Ivory Coast'), ('Norway', 'Thailand'), ('Norway', 'Ivory Coast'), ('Thailand', 'Ivory Coast')]
[('Japan', 'Switzerland'), ('Japan', 'Ecuador'), ('Japan', 'Cameroon'), ('Switzerland', 'Ecuador'), ('Switzerland', 'Cameroon'), ('Ecuador', 'Cameroon')]
[('USA', 'Sweden'), ('USA', 'Australia'), ('USA', 'Nigeria'), ('Sweden', 'Australia'), ('Sweden', 'Nigeria'), ('Australia', 'Nigeria')]
[('Brazil', 'Spain'), ('Brazil', 'South Korea'), ('Brazil', 'Costa Rica'), ('Spain', 'South Korea'), ('Spain', 'Costa Rica'), ('South Korea', 'Costa Rica')]
[('France', 'England'), ('France', 'Mexico'), ('France', 'Colombia'), ('England', 'Mexico'), ('England', 'Colombia'), ('Mexico', 'Colombia')]

解释：

首先，我们使用 df.groupby('group') 获取每个组内的团队列表，遍历该列表并访问其“团队”系列，以获取每个组内 4 个团队的列表：

for grpname,grpteams in df.groupby('group')['team']:
    teamlist = grpteams.tolist()
... 
['Canada', 'Netherlands', 'China', 'New Zealand']
['Germany', 'Norway', 'Thailand', 'Ivory Coast']
['Japan', 'Switzerland', 'Ecuador', 'Cameroon']
['USA', 'Sweden', 'Australia', 'Nigeria']
['Brazil', 'Spain', 'South Korea', 'Costa Rica']
['France', 'England', 'Mexico', 'Colombia']

然后我们生成团队元组的 all-play-all 列表。 David Arenburg 的帖子提醒我使用itertools.combinations(..., 2)。但我们可以使用生成器或嵌套的 for 循环：

def all_play_all(teams):
  for team1 in teams:
    for team2 in teams:
      if team1 < team2: # [Note] We don't need to generate indices then index into teamlist, just use direct string comparison
        yield (team1,team2)

>>> [match for match in all_play_all(grpteams)]
[('France', 'Mexico'), ('England', 'France'), ('England', 'Mexico'), ('Colombia', 'France'), ('Colombia', 'England'), ('Colombia', 'Mexico')]

请注意，我们采取了一种捷径，首先生成所有可能的索引元组，然后使用这些元组索引到团队列表中：

>>> T = len(teamlist) + 1
>>> [(i,j) for i in range(T) for j in range(T) if i<j]
[(0, 1), (0, 2), (0, 3), (1, 2), (1, 3), (2, 3)]

（注意：如果我们使用直接比较团队名称的方法，它会产生轻微的副作用，即（按字母顺序）组名称（它们最初是按种子排序，而不是按字母顺序），例如'China '

【讨论】：

你不需要调用 tolist，print(list(combinations(grp, 2))) 会做你需要的一切，组也是创建数据框所需的第一个项目
@PadraicCunningham：是的，谢谢。不知道它在将函数应用于系列时忽略了熊猫行索引。
感谢您向我介绍itertools！对于那些想用DataFrame 到达终点线的人，我构建了一个dict 来包含该组（@smci 的for 循环中的_，@Padraic 问题cmets 的方法中的grp），使用DataFrame.from_dict 和melt 将其转换为我想要的格式，然后使用map 将团队拉出元组。
@selwyth：我称它为for _,grp in df.groupby... 以表明我们正在丢弃组名。现在改写为for grpname,grpteams in df.groupby...

【解决方案2】：

使用 R，这是一个可能的 data.table 解决方案，使用它在 GitHub 上的开发版本

#### To install development version
## library(devtools)
## install_github("Rdatatable/data.table", build_vignettes = FALSE)

library(data.table) ## v >= 1.9.5
setDT(df)[, transpose(combn(team, 2L, simplify = FALSE)), keyby = group]
#    group          V1          V2
# 1:     A      Canada Netherlands
# 2:     A      Canada       China
# 3:     A      Canada New Zealand
# 4:     A Netherlands       China
# 5:     A Netherlands New Zealand
# 6:     A       China New Zealand
# 7:     B     Germany      Norway
# 8:     B     Germany    Thailand
...

【讨论】：

Python 等价物是itertools.combinations(..., 2)