【发布时间】:2021-06-06 06:47:07
【问题描述】:
我有一个句子列表 (+200,000),其中某些句子重复了几次。但是,我只想要一个独特句子的列表。我尝试了两种不同的代码,虽然删除了一些重复的代码,但我仍然注意到数据集中仍然存在一些重复的代码。知道为什么我的代码没有完全工作以及我能做些什么来改变它吗?提前致谢!
我尝试过的代码如下;
unique = list(set(all_data))
和
for line in all_data:
if line not in unique:
unique.append(line)
【问题讨论】:
-
set(all_data)绝对可以工作。你确定它们是完全重复的吗?也许句子因空格字符、大写/小写字母或标点符号而不同。请提供minimal reproducible example。 -
好的,谢谢!我会检查的!
标签: python nlp preprocessor