【发布时间】:2018-04-06 20:48:03
【问题描述】:
我有一个 DataFrame,其中一列是“语言”的“lang”。
此列中有两个不同的值,“en”表示“English”,“en-gb”表示“British English”。
此行中还有许多其他值,包括“es”表示“西班牙语”,“fr”表示“法语”等等。
所以它看起来像这样:
user lang id
joe en 77788
jim en-gb 23323
pedro es 12134
tom en 53892
juan es 24434
phillippe fr 04211
george en-gb 99999
出于分析目的,我想将“en”和“en-gb”值一起计算为相同的“en”或“English”值。也许我可以只将此列放入一个系列中,然后将它们计为一个,或者我可以用“en”更改“en-gb”值。
【问题讨论】:
-
您可以使用
.replace函数...您到底在问什么? -
如果语言有两个字母,那么你可以使用
df['lang'] = df['lang'].str[:2]
标签: python pandas dataframe replace series