【发布时间】:2018-03-09 13:28:25
【问题描述】:
我在使用 pandas 连接一个非常大的 .xlsx 文件文件夹时遇到问题。问题是我们在每个文档的第一行中都有一些无法删除的文本。
我的文件夹路径已设置并且连接有效。问题出在第一个文件之后,它在连接其余文件时删除了前 2 列中的 ID #。因此,不仅每一列的数据不匹配,而且我也丢失了我的唯一标识符。我最好的猜测是这是由于每个文档中的第一行文本。
这是我目前所拥有的。
files = [f for f in os.listdir(path) if f.endswith('.xlsx')]
iep_boy_df = pd.concat([pd.read_excel(os.path.join(path, f), sheetname='Academic Outlier List', encoding='utf-8') for f in files],
keys=files, names=['File Name', 'Row']).reset_index()
我已经看到了一些使用 Python 解析文件的方法,但是您可以解析 50 多个 excel 文档以跳过第 1 行,然后将它们传递给 pandas 以连接到 DF 中吗?总而言之,我希望在连接时排除第 1 行。
这里仍然是 Python 的中间人,因此非常感谢任何帮助!
【问题讨论】:
-
你试过
pd.read_excel(skiprows=[0])
标签: python excel python-2.7 pandas