【发布时间】:2015-04-14 18:06:20
【问题描述】:
我正在尝试使用 Python 获取 csv 列中唯一项目的计数。
示例 CSV 文件(没有标题):
AB,asd
AB,poi
AB,asd
BG,put
BG,asd
到目前为止,我已经尝试过了。
import csv
from collections import defaultdict, Counter
input_file = open('Results/1_sample.csv')
csv_reader = csv.reader(input_file, delimiter=',')
data = defaultdict(list)
for row in csv_reader:
data[row[0]].append(row[1])
for k, v in data.items():
print k
print Counter(v)
这会以这种格式给出输出:
AB
Counter({'asd': 2, 'poi': 1})
BG
Counter({'asd': 1, 'put': 1})
但我希望我的输出是这样的:
AB:2
BG:2
total_unique_count:3 #unique count of column[1], irrespective of the data in column[0]
【问题讨论】:
-
它在 column[1] 中有两个唯一值,asd 和 poi。 @PadraicCunningham
-
好的,所以您想删除重复项,而不是计算实际唯一值?
-
@PadraicCunningham 是的,删除重复项然后获取计数。
标签: python csv pandas unique counter