并非所有重复项都被删除答案

【问题标题】：Not all duplicates are removed并非所有重复项都被删除
【发布时间】：2021-06-06 06:47:07
【问题描述】：

我有一个句子列表 (+200,000)，其中某些句子重复了几次。但是，我只想要一个独特句子的列表。我尝试了两种不同的代码，虽然删除了一些重复的代码，但我仍然注意到数据集中仍然存在一些重复的代码。知道为什么我的代码没有完全工作以及我能做些什么来改变它吗？提前致谢！

我尝试过的代码如下； unique = list(set(all_data)) 和

for line in all_data:
 if line not in unique:
  unique.append(line)

【问题讨论】：

set(all_data) 绝对可以工作。你确定它们是完全重复的吗？也许句子因空格字符、大写/小写字母或标点符号而不同。请提供minimal reproducible example。
好的，谢谢！我会检查的！

【解决方案1】：

你可以使用 numpy：

import numpy as np
mylist = ['Hey','Hey','Heyy']
newlist = list(np.unique(mylist)) #np.unique's output is an array

现在newlist 将是

['Hey','Heyy']

【讨论】：