在 python 列表中计算日期的最佳/最快方法答案

【问题标题】：Optimal/fastest way to count dates in a python list在 python 列表中计算日期的最佳/最快方法
【发布时间】：2017-06-12 13:52:35
【问题描述】：

我有一个日期列表，目标是计算每个日期的出现次数同时保持它们出现在原始列表中的顺序。考虑以下示例：

列表only_dates 如下所示：

[datetime.date(2017, 3, 9), datetime.date(2017, 3, 10), datetime.date(2017, 3, 10), datetime.date(2017, 3, 11)]

我正在尝试使用groupby：

import itertools
day_wise_counts = [(k, len(list(g))) for k, g in itertools.groupby(only_dates)]
print(str(day_wise_counts))

这会打印出来

[(datetime.date(2017, 3, 10), 1), (datetime.date(2017, 3, 9), 1), (datetime.date(2017, 3, 10), 1), (datetime.date(2017, 3, 11), 1)]

我了解这种情况正在发生，因为最终每个日期对象在分组时都被视为不同的对象。

我期待的输出是：

[(datetime.date(2017, 3, 9), 1), (datetime.date(2017, 3, 10), 2), (datetime.date(2017, 3, 11), 1)]

我不一定要查找元组列表。只要保持日期的原始顺序，字典输出就足够了。（OrderedDict 可能）。

我怎样才能做到这一点？

更新：建议了多种可行的方法。但我应该提到我将对大量数据执行此操作。因此，如果您的解决方案在运行时间方面是最佳解决方案，那就太好了。如果可以，请相应地编辑您的答案/评论。

更新 2：数据的大小可以达到 100 万行。

【问题讨论】：

如果您使用的是 python-2.x，您可以查看以下问题：stackoverflow.com/questions/35446015/… 如何创建有序计数器。不幸的是，这在 python-3.x 中不再起作用（除了 3.6，dict 默认保持它的顺序）。
如果您说“我将对大量数据执行此操作”，我们谈论的是什么大小（以及大致多少重复的百分比）？
how to get count dict of items but maintain the order in which they appear?的可能重复
@MSeifert 为问题添加了更新。
@Chris_Rands 它没有解决性能要求。

标签： python list python-3.x datetime counting

【解决方案1】：

确实，您可以使用OrderedDict：

from collections import OrderedDict
import datetime

inp = [datetime.date(2017, 3, 9), datetime.date(2017, 3, 10),
       datetime.date(2017, 3, 10), datetime.date(2017, 3, 11)]

odct = OrderedDict()
for item in inp:
    try:
        odct[item] += 1
    except KeyError:
        odct[item] = 1

print(odct)

哪个打印：

OrderedDict([(datetime.date(2017, 3, 9), 1),
             (datetime.date(2017, 3, 10), 2),
             (datetime.date(2017, 3, 11), 1)])

您还询问了时间，所以这里是：

from collections import OrderedDict, Counter
import datetime
import random

# Functions

def ordereddict(inp):
    odct = OrderedDict()
    for item in inp:
        try:
            odct[item] += 1
        except KeyError:
            odct[item] = 1
    return odct


def dawg(inp):
    cnts=Counter(inp)
    seen=set()
    return [(e, cnts[e]) for e in inp if not (e in seen or seen.add(e))]


def chris1(inp):
    return [(item, inp.count(item)) for item in list(OrderedDict.fromkeys(inp))]


def chris2(inp):
    c = Counter(inp)
    return [(item,c[item]) for item in list(OrderedDict.fromkeys(inp))]


# Taken from answer: https://stackoverflow.com/a/23747652/5393381
class OrderedCounter(Counter, OrderedDict):  
    'Counter that remembers the order elements are first encountered'

    def __repr__(self):
        return '%s(%r)' % (self.__class__.__name__, OrderedDict(self))

    def __reduce__(self):
        return self.__class__, (OrderedDict(self),)


# Timing setup
timings = {ordereddict: [], dawg: [], chris1: [], chris2: [], OrderedCounter: []}
sizes = [2**i for i in range(1, 20)]

# Timing
for size in sizes:
    func_input = [datetime.date(2017, random.randint(1, 12), random.randint(1, 28)) for _ in range(size)]
    for func in timings:
        res = %timeit -o func(func_input)   # if you use IPython, otherwise use the "timeit" module
        timings[func].append(res)

并绘制：

%matplotlib notebook

import matplotlib.pyplot as plt
import numpy as np

fig = plt.figure(1)
ax = plt.subplot(111)

for func in timings:
    ax.plot([2**i for i in range(1, 20)], 
            [time.best for time in timings[func]], 
            label=str(func.__name__))
ax.set_xscale('log')
ax.set_yscale('log')
ax.set_xlabel('size')
ax.set_ylabel('time [seconds]')
ax.grid(which='both')
ax.legend()
plt.tight_layout()

我在 Python-3.5 上计时。使用Counter 的方法在 python-2.x 上可能会慢一些（Counter 已针对 python-3.x 进行了优化）。 chris2 和 dawg 方法也相互重叠（因为它们之间几乎没有时间差）。

因此，除了@Chris_Rands 和OrderedCounter 的第一种方法外，这些方法的执行方式非常相似，并且主要取决于列表中重复项的数量。

这主要是 1.5-2 差异的一个因素。在 3 种“快速”方法中，我找不到 100 万个项目的任何实时差异。

【讨论】：

很好，基准测试！ OrderedCounter 怎么样？ stackoverflow.com/questions/23747564/…
@Chris_Rands 我更新了答案。但它似乎更慢。
试试sorted([(k,v) for k,v in Counter(dates).items()], key=lambda t: dates.index(t[0])) 我觉得这可能是最快的...
@dawg 我可以测量它，但是按index 排序会引入与输入顺序的紧密相关性（这是所有其他方法都避免的参数）。在最好的情况下，它可能会非常快，但在最坏的情况下，它会很慢（O(n**2)）。例如：l = [datetime.date(2017, random.randint(1, 12), random.randint(1, 28)) for _ in range(2**19)] 然后%timeit dawg2(l) 给出157 ms ± 3.38 ms per loop (mean ± std. dev. of 7 runs, 10 loops each) 但l2 = sorted(l) 和%timeit dawg2(l2) 给出13.9 s ± 143 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)。
因此它可能快 2-3 倍，但也可能慢 50-100 倍（与其他“快速”方法相比）。

【解决方案2】：

您可以将list.count() 与一个列表推导一起使用，该列表推导式遍历从唯一有序日期的OrderedDict 派生的列表：

import datetime
from collections import OrderedDict

lst = [datetime.date(2017, 3, 9), datetime.date(2017, 3, 10), datetime.date(2017, 3, 10), datetime.date(2017, 3, 11)]

[(item,lst.count(item)) for item in list(OrderedDict.fromkeys(lst))]
# [(datetime.date(2017, 3, 9), 1), (datetime.date(2017, 3, 10), 2), (datetime.date(2017, 3, 11), 1)]

或者类似地使用collections.Counter而不是list.count：

from collections import Counter

c = Counter(lst)

[(item,c[item]) for item in list(OrderedDict.fromkeys(lst))]
# [(datetime.date(2017, 3, 9), 1), (datetime.date(2017, 3, 10), 2), (datetime.date(2017, 3, 11), 1)]

或者使用OrderedCounter。

编辑：查看@MSeifert 的出色基准。

【讨论】：

看起来不错。 +1 如果可以，请解决问题的性能部分。

【解决方案3】：

您可以使用计数器进行计数，然后uniqify 原始列表以在添加计数的同时保持顺序。

给定：

>>> dates=[datetime.date(2017, 3, 9), datetime.date(2017, 3, 10), datetime.date(2017, 3, 10), datetime.date(2017, 3, 11)]

你可以这样做：

from collections import Counter

cnts=Counter(dates)
seen=set()
>>> [(e, cnts[e]) for e in dates if not (e in seen or seen.add(e))]
[(datetime.date(2017, 3, 9), 1), (datetime.date(2017, 3, 10), 2), (datetime.date(2017, 3, 11), 1)]

更新

您还可以使用键函数将 Counter 重新排序为原始列表的顺序，以获取该列表中 date(X) 的第一个条目的索引：

sorted([(k,v) for k,v in Counter(dates).items()], key=lambda t: dates.index(t[0]))

（此速度与您的列表的有序或无序程度相关......）

有人说timeit！

以下是一些时间安排和更大的示例（400,000 个日期）：

from __future__ import print_function
import datetime
from collections import Counter
from collections import OrderedDict

def dawg1(dates):
    seen=set()
    cnts=Counter(dates)
    return [(e, cnts[e]) for e in dates if not (e in seen or seen.add(e))]

def od_(dates):    
    odct = OrderedDict()
    for item in dates:
        try:
            odct[item] += 1
        except KeyError:
            odct[item] = 1
    return odct

def lc_(lst):
    return [(item,lst.count(item)) for item in list(OrderedDict.fromkeys(lst))]    

def dawg2(dates):
    return sorted([(k,v) for k,v in Counter(dates).items()], key=lambda t: dates.index(t[0]))    

if __name__=='__main__':
    import timeit  
    dates=[datetime.date(2017, 3, 9), datetime.date(2017, 3, 10), datetime.date(2017, 3, 10), datetime.date(2017, 3, 11)]*100000
    for f in (dawg, od_, lc_,sort_):
        print("   {:^10s}{:.4f} secs {}".format(f.__name__, timeit.timeit("f(dates)", setup="from __main__ import f, dates", number=100),f(dates)))

打印（在 Python 2.7 上）：

 dawg1   10.7253 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
  od_    21.8186 secs OrderedDict([(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)])
  lc_    17.0879 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
 dawg2   8.6058 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]0000)]

PyPy：

 dawg1   7.1483 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
  od_    4.7551 secs OrderedDict([(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)])
  lc_    27.8438 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
 dawg2   4.7673 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]

Python 3.6：

 dawg1   3.4944 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
  od_    4.6541 secs OrderedDict([(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)])
  lc_    2.7440 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]
 dawg2   2.1330 secs [(datetime.date(2017, 3, 9), 100000), (datetime.date(2017, 3, 10), 200000), (datetime.date(2017, 3, 11), 100000)]

最好的。

【讨论】：

看起来不错。请参阅我对性能问题的更新。 +1
赞成，因为你在这个解决方案中投入了很多，但我认为使用 sorted 不好，因为它可能不一定会保留原始顺序。您的基准测试也很有用，因为它探索了不同的 Python 版本，但 MSeifert 探索了更多参数空间
@Chris_Rands：谢谢。 sorted 版本正在使用原始列表的索引，那么它如何不保留原始顺序？这将与使用任何其他方法来保持秩序一样可预测。
@dawg 抱歉，我错过了您的自定义排序键！