【发布时间】:2020-07-25 18:44:25
【问题描述】:
我有一个这样的数据框:
df = pd.DataFrame({'Source1': ['Corona,Corona,Corona','Sars,Sars','Corona,Sars',
'Sars,Corona','Sars'],
'Area': ['A,A,A,B','A','A,B,B,C','C,C,B,C','A,B,C']})
df
Source1 Area
0 Corona,Corona,Corona A,A,A,B
1 Sars,Sars A
2 Corona,Sars A,B,B,C
3 Sars,Corona C,C,B,C
4 Sars A,B,C
我想检查每一列中的每个单元格(真实数据有很多列)并找到每个唯一单词的频率(我们可以用','来区分唯一单词),并将整个条目替换为最频繁的单词。
在平局的情况下,替换哪个单词并不重要。所以想要的输出应该是这样的:
df
Source Area
0 Corona A
1 Sars A
2 Corona B
3 Sars C
4 Sars A
在这种情况下,我随机选择在出现平局时选择第一个单词,但这并不重要。
提前致谢。
【问题讨论】:
标签: python regex pandas dataframe replace