【发布时间】:2019-09-09 00:10:22
【问题描述】:
我正在尝试从多个 csv 创建一个唯一 ID 列表。
我有大约 80 个包含数据的 csv,它们都采用相同的格式并位于同一目录中。这些文件包含来自大约 1500 个站点的时间序列数据,但并非所有站点都在所有文件中。包含我需要的数据的列称为'Site Id'。
我可以通过创建dataframe 从第一个 csv 中获取唯一值,但我看不到如何遍历所有剩余的文件。
如果现在还不明显的话,我是一个完整的初学者,我的导师正在休假!
我尝试为单个文件创建df,但我不知道下一步。
df = pd.read_csv(r'C:filepathhere.csv')
ids = df['Site Id'].unique().tolist()
【问题讨论】:
-
您需要这个的最终格式是什么?列表?
-
感谢您的提问。我认为列表是最好的选择。我计划使用该列表作为按站点拆分每个 csv 的基础,因此我将拥有 1500 个各个站点的所有数据文件,而不是所有站点的 80 个每月数据文件。
-
知道了,如果您不需要已经或以后使用它,我会回答避免使用更重的 Pandas 包。如果您仍然在使用它,请查看发布的其他与您尝试的方法类似的方法。
标签: python pandas loops csv dataframe