【问题标题】:Python: Compare two dataframes in Python with different number rows and a Compsite keyPython:比较 Python 中具有不同行数和复合键的两个数据帧
【发布时间】:2020-08-20 08:27:42
【问题描述】:

我有两个不同的数据框需要比较。

这两个数据帧具有不同的行数,并且没有 Pk 其复合主键 (id||ver||name||prd||loc)

df1:

id ver name   prd  loc
a  1   surya  1a   x
a  1   surya  1a   y
a  2   ram    1a   x
b  1   alex   1b   z
b  1   alex   1b   y
b  2   david  1b   z

df2:

id ver name   prd  loc
a  1   surya  1a   x
a  1   surya  1a   y
a  2   ram    1a   x
b  1   alex   1b   z

我尝试了下面的代码,如果行数相同,则此代码可以正常工作,但如果与上述情况类似,则无法正常工作。

df1 = pd.DataFrame(Source)
df1 = df1.astype(str) #converting all elements as objects for easy comparison

df2 = pd.DataFrame(Target)
df2 = df2.astype(str) #converting all elements as objects for easy comparison


header_list =  df1.columns.tolist() #creating a list of column names from df1 as the both df has same structure

df3 = pd.DataFrame(data=None, columns=df1.columns, index=df1.index)

    for x in range(len(header_list)) :

        df3[header_list[x]] = np.where(df1[header_list[x]] == df2[header_list[x]], 'True', 'False')

df3.to_csv('Output', index=False)

如果有不同的行数,请告诉我如何比较数据集。

【问题讨论】:

  • 由于两个数据框都具有共同的id 列,将检查限制为仅id 列是否足够?请使用您的 dfs 的输出更新您的帖子。这个post 应该可以帮助您入门。

标签: python python-3.x pandas dataframe compare


【解决方案1】:

你可以试试这个:

~df1.isin(df2)
# df1[~df1.isin(df2)].dropna()

让我们来看一个简单的例子:

df1 = pd.DataFrame({
'Buyer': ['Carl', 'Carl', 'Carl'],
'Quantity': [18, 3, 5, ]})

#    Buyer  Quantity
# 0  Carl        18
# 1  Carl         3
# 2  Carl         5

df2 = pd.DataFrame({
'Buyer': ['Carl', 'Mark', 'Carl', 'Carl'],
'Quantity': [2, 1, 18, 5]})

#    Buyer  Quantity
# 0  Carl         2
# 1  Mark         1
# 2  Carl        18
# 3  Carl         5


~df2.isin(df1)

#    Buyer  Quantity
# 0  False  True
# 1  True   True
# 2  False  True
# 3  True   True


df2[~df2.isin(df1)].dropna()

#   Buyer   Quantity
# 1 Mark    1
# 3 Carl    5

另一个想法可以是merge 在相同的列名上。

当然,根据您的需要调整代码。希望这会有所帮助:)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-12-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多