【发布时间】:2016-03-17 11:54:19
【问题描述】:
我得到了一个包含 5,000,000 行 x 3 列的数据集。
基本上是这样的:
location os clicked
0 China ios 1
1 USA android 0
2 Japan ios 0
3 China android 1
所以,我去了 Pandas.DataFrame 寻求一些很棒的快速支持。
现在我将根据字典替换位于数据帧系列中的值。
注意:我用作参考的字典如下所示:
{ China : 1,
USA : 2,
Japan : 3,
.... : ..
}
因为我使用Pandas.DataFrame.Column_Label.drop_duplicates()。
最后,我得到了:
location os clicked
0 1 ios 1
1 2 android 0
2 3 ios 0
3 1 android 1
我已经在 446 秒中完成了完整的映射。
有更快的方法吗?
我认为replace() 函数浪费了很多时间进行无意义的搜索。那么我是在走向正确的结局吗?
【问题讨论】:
-
试试
df['location'] = df['location'].map(d)d是你的字典
标签: python python-2.7 pandas dataframe series