【发布时间】:2014-10-05 13:14:38
【问题描述】:
我有一个包含对象 ID 的数组 traced_descIDs,我想确定哪些项目在该数组中不是唯一的。然后,对于每个唯一的重复(小心)ID,我需要确定traced_descIDs 的哪些索引与其相关联。
例如,如果我们在这里取 traced_descIDs,我希望发生以下过程:
traced_descIDs = [1, 345, 23, 345, 90, 1]
dupIds = [1, 345]
dupInds = [[0,5],[1,3]]
我目前正在通过以下方式找出哪些对象有超过 1 个条目:
mentions = np.array([len(np.argwhere( traced_descIDs == i)) for i in traced_descIDs])
dupMask = (mentions > 1)
但是,这需要很长时间,因为 len( traced_descIDs ) 大约是 150,000。有没有更快的方法来达到同样的效果?
非常感谢任何帮助。干杯。
【问题讨论】:
标签: python arrays numpy unique