【问题标题】:Not all duplicates are removed并非所有重复项都被删除
【发布时间】:2021-06-06 06:47:07
【问题描述】:

我有一个句子列表 (+200,000),其中某些句子重复了几次。但是,我只想要一个独特句子的列表。我尝试了两种不同的代码,虽然删除了一些重复的代码,但我仍然注意到数据集中仍然存在一些重复的代码。知道为什么我的代码没有完全工作以及我能做些什么来改变它吗?提前致谢!

我尝试过的代码如下; unique = list(set(all_data))

for line in all_data:
 if line not in unique:
  unique.append(line)



【问题讨论】:

  • set(all_data) 绝对可以工作。你确定它们是完全重复的吗?也许句子​​因空格字符、大写/小写字母或标点符号而不同。请提供minimal reproducible example
  • 好的,谢谢!我会检查的!

标签: python nlp preprocessor


【解决方案1】:

你可以使用 numpy:

import numpy as np
mylist = ['Hey','Hey','Heyy']
newlist = list(np.unique(mylist)) #np.unique's output is an array

现在newlist 将是

['Hey','Heyy']

【讨论】:

    猜你喜欢
    • 2017-12-27
    • 1970-01-01
    • 2021-09-13
    • 1970-01-01
    • 2010-12-20
    • 2017-10-14
    • 1970-01-01
    • 2018-04-07
    • 2015-06-09
    相关资源
    最近更新 更多