【发布时间】:2017-10-26 23:12:45
【问题描述】:
我有 3 列,如下所示,pandas dataframe 中的标题为 screen_name, screen_name_retweet , screen_name_mention。
screenName screen_name_retweet screen_name_mention
User1 User10 User1
User4 User10 User5
User3 User3 User12
User6 User10 User7
如果在screen_name and screen_name_retweet or screen_name_mention 之间发现重复项,我想要将screen_name 与screen_name_retweet 和screen_name_mention 匹配,将该列(screen_name_retweet and screen_name_mention) 值替换为''。所以上面的列应该是这样的
screenName screen_name_retweet screen_name_mention
User1 User10
User4 User10 User5
User3 User12
User6 User10 User7
我怎样才能得到想要的答案?
更新:
我已经试过了:
df.loc[(df['screenName'].duplicated() & df['screen_name_mention'].duplicated()), ['screen_name_mention']] = ''
但没有任何反应,桌子保持不变
【问题讨论】:
-
一如既往,您尝试过什么?还有,你怎么拥有它?一个文本文件,一个 python 列表,还有别的什么?提示,列表推导可能是你的朋友...
-
我总是在发布问题之前尝试(我也包含代码),但我找不到类似的东西,而且我有点着急。我在 excel 表中有它并使用 panda 作为数据框加载 csv 文件
-
让我也检查一下列表理解
-
如果不列出理解,如果检查也可能有帮助..