【发布时间】:2021-01-19 22:14:45
【问题描述】:
我有一个非常大的数据集的问题,我可以在不到一分钟的时间内在 Excel 中完成,但在 Python 上花费的时间太长了。
目标:根据数据集 X 列和 Y 列中的信息为每一行赋予一个 ID。
在 Excel 中:
- 将计数器初始化为 1
- 对于每一行 i:
- 如果 X = 0 和 Y = 0,则行 ID = 计数器,后跟计数器 += 1
- [已编辑] 其他行 ID = 上一行中的 ID。
- 接下来我
我的 pd 数据框很大。在 for 循环中执行此操作需要一个多小时。我不知道如何向量化我的问题以避免 for 循环。
希望有人可以帮助我。
【问题讨论】:
-
你能告诉我们你到目前为止尝试过的代码吗?
标签: python-3.x pandas vectorization