【发布时间】:2017-10-23 00:57:48
【问题描述】:
作为较大数据集的一部分,我从 API 调用返回以下内容:
{'时间': datetime.datetime(2017, 5, 21, 18, 18, 1, tzinfo=tzutc()), '价格': '0.052600'}
{'时间': datetime.datetime(2017, 5, 21, 18, 18, 1, tzinfo=tzutc()), '价格':'0.052500'}
理想情况下,我会使用时间戳作为 pandas 数据帧的索引,但这似乎失败了,因为在转换为 JSON 时存在重复:
df = df.set_index(pd.to_datetime(df['Timestamp']))
print(new_df.to_json(orient='index'))
ValueError:对于 orient='index',DataFrame 索引必须是唯一的。
有关处理这种情况的最佳方法的任何指导?丢弃一个数据点?时间不会比到秒更细,而且在那一秒内价格显然会发生变化。
【问题讨论】:
-
那么您需要告诉我们您如何同时处理多个价格事件tick:保持第一个、最后一个还是全部?保持第一价格?平均价格?最高和最低价格? ...?这取决于您最终要对数据做什么。您需要告诉我们更多背景信息。
标签: python pandas time-series data-processing