从excel读取时熊猫合并单元格问题答案

【问题标题】：Pandas merged cell issue when reading from excel从excel读取时熊猫合并单元格问题
【发布时间】：2020-03-12 16:54:27
【问题描述】：

所以我有一个风格怪异的 xls 文件，但我无能为力，所以我只需要解析它。

如您所见，我有一些合并的单元格。我想要做的是填充合并单元格的空值（“填充”），但也要保持空单元格的原样。

类似的东西

EIM, C,NI1 Enescu_Ioan, EIM, S,NI11,Enescu_Ioan EIM, C,NI1 Enescu_Ioan, Empty EIM, C,NI1 Enescu_Ioan EIM, S,NI11,Enescu_Ioan EIM, C,NI1,Enescu_Ioan Empty 我现在加载文件的方式是这样的。

xl = pd.ExcelFile("data/file.xls")
df = xl.parse(0, header=None)

我也尝试过像这样打开文件并访问合并的单元格，但我得到一个空列表。

book = xlrd.open_workbook("data/file.xls")
book.sheet_by_index(0).merged_cells # This is empty []

有什么办法可以做到这一点吗？谢谢！

编辑

关于这个问题可能有些混乱，所以我会尝试更好地解释。附加图像是较大文件的子集，其中列可能以不同的顺序出现。我想要实现的是一种区分合并单元格 NAN 值（在合并单元格中只有第一列有值，其余均为 nan）和空单元格 NAN 的方法。

【问题讨论】：

你试过 pandas read_excel 吗？ pandas.pydata.org/pandas-docs/stable/reference/api/…
@MahendraSingh 是的，我得到相同的输出

标签： python excel python-3.x pandas

【解决方案1】：

设法找到解决办法

def read_excel(path):
    excel = None
    if path.endswith('xlsx'):
        excel = pd.ExcelFile(xlrd.open_workbook(path), engine='xlrd')
    elif path.endswith('xls'):
        excel = pd.ExcelFile(xlrd.open_workbook(path, formatting_info=True), engine='xlrd')
    else:
        raise ValueError("Could not read this type of data")
    return excel

def parse_excel(excel_file):
    sheet_0 = excel_file.book.sheet_by_index(0)
    df = excel_file.parse(0, header=None)
    return sheet_0, df

def fill_merged_na(sheet, dataframe):
    for e in sheet.merged_cells:
        rl, rh, cl, ch = e
        base_value = sheet.cell_value(rl, cl)
        dataframe.iloc[rl:rh, cl:ch] = base_value
    return dataframe

一些重要的位是打开将formatting_info设置为True的excel文件，以便还读取格式，例如合并的单元格和仅填充合并的nan值但保留初始空单元格的fill_merged_na函数。

【讨论】：

感谢分享解决方案。

【解决方案2】：

如果你这样做df = pd.read_excel('path')，这就是 DataFrame 的样子

print(df)

                     Col1                     Col2
0  EIM, C,NI1 Enescu_Ioan  EIM, S,NI11,Enescu_Ioan
1                     NaN                      NaN
2                     NaN  EIM, S,NI11,Enescu_Ioan
3                     NaN                      NaN

现在，从合并单元格的第一个条目中填充值：

df['Col1'] = df['Col1'].fillna(method = 'ffill')

并使用pandas.DataFrame.replace 将NaN 更改为空格：

df['Col2'] = df['Col2'].replace(np.nan,'')

一个例子：

df = pd.DataFrame({'Col1' : ['EIM, C,NI1 Enescu_Ioan',np.nan,np.nan,np.nan], 
                   'Col2' : ['EIM, S,NI11,Enescu_Ioan',np.nan,'EIM, S,NI11,Enescu_Ioan',np.nan]})

print(df)

                     Col1                     Col2
0  EIM, C,NI1 Enescu_Ioan  EIM, S,NI11,Enescu_Ioan
1                     NaN                      NaN
2                     NaN  EIM, S,NI11,Enescu_Ioan
3                     NaN                      NaN

df['Col1'] = df['Col1'].fillna(method = 'ffill')
df['Col2'] = df['Col2'].replace(np.nan,'')
print(df)
                     Col1                     Col2
0  EIM, C,NI1 Enescu_Ioan  EIM, S,NI11,Enescu_Ioan
1  EIM, C,NI1 Enescu_Ioan                         
2  EIM, C,NI1 Enescu_Ioan  EIM, S,NI11,Enescu_Ioan
3  EIM, C,NI1 Enescu_Ioan

【讨论】：

是的，在这种情况下有效，但列可以按任何顺序出现，这只是文件的一小部分。我需要的是一种区分合并单元格nan和空单元格nan的方法。
这是根据您的预期输出，请编辑您的问题以包含完整的问题和预期输出，同时根据我的理解，熊猫在读取任何类型的空单元格时返回 NaN。