【问题标题】:python count number of unique elements in csv columnpython计算csv列中唯一元素的数量
【发布时间】:2015-04-14 18:06:20
【问题描述】:

我正在尝试使用 Python 获取 csv 列中唯一项目的计数。

示例 CSV 文件(没有标题):

AB,asd
AB,poi
AB,asd
BG,put
BG,asd

到目前为止,我已经尝试过了。

import csv
from collections import defaultdict, Counter

input_file = open('Results/1_sample.csv')
csv_reader = csv.reader(input_file, delimiter=',')

data = defaultdict(list)
for row in csv_reader:
    data[row[0]].append(row[1])
for k, v in data.items():
    print k
    print Counter(v)

这会以这种格式给出输出:

AB
Counter({'asd': 2, 'poi': 1})
BG
Counter({'asd': 1, 'put': 1})

但我希望我的输出是这样的:

AB:2
BG:2
total_unique_count:3 #unique count of column[1], irrespective of the data in column[0]

【问题讨论】:

  • 它在 column[1] 中有两个唯一值,asd 和 poi。 @PadraicCunningham
  • 好的,所以您想删除重复项,而不是计算实际唯一值?
  • @PadraicCunningham 是的,删除重复项然后获取计数。

标签: python csv pandas unique counter


【解决方案1】:

您正在寻找 SeriesGroupby 方法nunique

In [11]: df
Out[11]:
    0    1
0  AB  asd
1  AB  poi
2  AB  asd
3  BG  put
4  BG  asd

In [12]: g = df.groupby(0)

In [13]: g[1].nunique()
Out[13]:
0
AB    2
BG    2
Name: 1, dtype: int64

【讨论】:

  • 看起来很有希望,但我得到了pandas.hashtable.PyObjectHashTable.get_item KeyError: 0。我会尝试修复并更新。
  • 0和1是上面DataFrame中的列名,你的可能不一样吧? (这按第 0 列分组,并为每个组计算第 1 列中唯一元素的数量。)
  • 我的数据也一样。
  • @pam 还可以获取使用len(df[1].unique()) 的组总数。好的,不知道为什么,你一直都可以这样做,也许列名是字符串'0'
  • 我的错。你是对的。我忘了给 header = None 并且它正在考虑将第一行作为标题。效果很好!非常感谢!
【解决方案2】:

使用sets:

data = (('AB', 'asd'),
    ('AB', 'poi'),
    ('AB', 'asd'),
    ('BG', 'put'),
    ('BG', 'asd'))
unique_items = set(data)
keys = [[entry[0] for entry in unique_items]]
for key in set(keys):
    print("Key '{}' appears {} unique times".format(key, keys.count(key)))

键“BG”出现 2 次唯一的时间
键“AB”出现 2 次独特的时间

【讨论】:

  • 感谢您的回答。但是我需要 AB 计数只有 2,而不是 3(因为在 AB 的列 [1] 中重复了 asd)
  • 啊,所以您要查找完全唯一的条目,然后按键计数?
  • 是的。抱歉我的措辞不好。
猜你喜欢
  • 2015-04-18
  • 2018-03-16
  • 1970-01-01
  • 2021-10-13
  • 1970-01-01
  • 2013-11-30
  • 1970-01-01
  • 2021-07-29
相关资源
最近更新 更多