【发布时间】:2020-12-07 11:47:17
【问题描述】:
我正在研究如何集群一个 patstat(参考数据库)数据库。
使用我自己的算法,我想出了一个数据框,它显示了参考文献的作者、开始页、结束页、卷和出版年份。
运行:
dfhead = df.head(10)
给我看
现在我想要以下内容: 使用相同的数据框显示内部连接,例如作者、开始页和结束页是相同的。 (行间至少有 3 个相似处)
我试过了:
c = ['author', 'beginpage','endpage', 'volume','publication year']
df_merge = dfhead.merge(dfhead, how = 'inner',on = [c[0],c[1],c[2]])
在哪里
然后将给出答案,使得仅存在具有完全相同行的内部联接,但我不希望包含这些。
在上面的示例中,df_merge 不应采用任何值,因为没有 3 个相似的列。
如果有一些相同行的方法,我会举一个例子:
x = pd.Dataframe({'author':['lee','lee'], 'beginpage':[455,456],'endpage':[477,477],'volume':[300,300]})
请注意,这两行(至少)有 3 个相似的列,因此合并/连接应该是可见的。 但请注意,在不想包括加入完全相同的行!!!
【问题讨论】:
标签: python pandas dataframe join merge