【发布时间】:2019-03-30 18:11:54
【问题描述】:
我有一个包含文本数据的数据框列。它几乎没有完全由重复字母组成的单词,很少有其他单词部分由重复字母组成。我想删除由完全重复的字母组成的单词,并在数据框列中保留第一次出现的字母(如果重复字母的计数超过 2)。这该怎么做?例如,如果我的数据框有这样的词-
id text
1 aaaa
2 bb
3 wwwwwwww
4 helloooo
5 see youuuu
输出应该是-
id text
1
2
3
4 hello
5 see you
【问题讨论】:
-
有必要用停用词制作一个新列表吗?我不明白你想对数据框做什么。
-
@JacobFuchs .....没有必要用停用词制作新列表。我只是认为一种方法可以做到这一点。我想从数据框列中删除完全由相同重复“字母”组成的所有“单词”
标签: python regex nlp text-processing