【问题标题】:How to remove repeating substring in pandas series?如何删除熊猫系列中的重复子串?
【发布时间】:2023-03-24 05:33:01
【问题描述】:

我试图删除 pandas 中的重复字符串,但该方法不起作用。

我的尝试

import pandas as pd

ser = pd.Series(['haha','lollol','hi'])
ser.str.replace(r'(\w)\1',r'\1',regex=True) # does not work

But this works:
re.sub(r'(\w+)\1',r'\1', 'haha') # gives ha

pandas系列中如何去除每个单词中的重复字符串?

【问题讨论】:

  • 这不是熊猫系列独有的吧?您可能可以将问题更改为仅删除重复的子字符串。
  • @AlexanderCécile 我的数据已经在熊猫数据框中,我想做一些字符串操作。显然我可以做 re.sub for-loop 但我正在寻找更通用的 pandaic 方式来做到这一点。

标签: python pandas


【解决方案1】:

试试这个:

ser.str.replace(r'(\w+)\1',r'\1',regex=True) 

输出:

0     ha
1    lol
2     hi

【讨论】:

  • 哦!!我忘记了强大的 PLUS + 符号,非常感谢。这困扰了我好几分钟。
猜你喜欢
  • 2019-12-14
  • 1970-01-01
  • 2021-08-31
  • 2021-07-01
  • 2018-09-14
  • 1970-01-01
  • 2018-08-03
  • 2013-12-12
  • 1970-01-01
相关资源
最近更新 更多