【发布时间】:2021-09-16 13:58:30
【问题描述】:
我正在学习 python,我正在尝试做一些文本预处理,我一直在阅读和借鉴 Stackoverflow 的想法。我能够想出下面的公式,但它们似乎没有达到我的预期,而且它们也没有抛出任何错误,所以我很难过。
首先,在 Pandas 数据框列中,我试图删除单词中的第三个连续字符;这有点像对应该有两个连续字符而不是三个字符的单词进行拼写检查
buttter = butter
bettter = better
ladder = ladder
我使用的代码如下:
import re
docs['Comments'] = [c for c in docs['Comments'] if re.sub(r'(\w)\1{2,}', r'\1', c)]
在第二种情况下,我只想用最后一个替换多个标点符号。
????? = ?
..... = .
!!!!! = !
---- = -
***** = *
我的代码是:
docs['Comments'] = [i for i in docs['Comments'] if re.sub(r'[\?\.\!\*]+(?=[\?\.\!\*])', '', i)]
【问题讨论】:
标签: python-3.x regex list-comprehension