【发布时间】:2021-05-20 09:30:19
【问题描述】:
我正在努力清理数据集,转换一列混合格式的用户 ID。检查后,使用 nunique() 命令,我可以观察到大约 15K 个不同的用户,所有用户都以类似 s123456 的数字或缩写形式如“abcde”列出。如何将不同的格式转换为可与其他数据集合并的可比较的数字格式?
我有这个:
df1['Get s-number IDs']
0 s200100
1 s203288
2 wasnur
3 hdmfla
4 hdmfla
...
1048555 s164118
1048556 s164118
1048557 s164118
1048558 s164118
1048559 s164118
我喜欢这个:
df1['User Name']
0 200100
1 203288
2 wasnur (replaced by e.g. a unique dummy integer value)
3 hdmfla (replaced by e.g. a unique dummy integer value)
4 hdmfla (replaced by e.g. a unique dummy integer value)
...
1048555 164118
1048556 164118
1048557 164118
1048558 164118
1048559 164118
当应用各种方法来提取数字或将字符串对象强制转换为 int dtype 时,我不断收到错误。
一旦修复,转换后的数据/dtypes 仍应反映数据集中由上述 nunique() 方法定义的相同数量的唯一值。
在一天结束的时候,我想得到一列我称之为用户名的行,然后将上面的数据与另一个数据集进行比较,以检查我正在使用有效的用户 ID(由我的内部定义客户)。
或者,我如何简单地从列行中删除类似文本的缩写?
感谢您的帮助,BR hubsandspokes
【问题讨论】:
标签: python-3.x string type-conversion integer