【发布时间】:2021-08-22 11:16:06
【问题描述】:
我有两个数据框df1和df2如下图:
Df1:
movie correct_id
0 birdman N/A
1 avengers: endgame N/A
2 deadpool N/A
3 once upon deadpool N/A
Df2:参考数据框
movie correct_id
0 birdmans 4
1 The avengers: endgame 2
2 The King 3
3 once upon a deadpool 1
预期结果:
movie correct_id
0 birdman 4
1 avengers: endgame 2
2 deadpool N/A
3 once upon deadpool 1
请问如何根据部分字符串匹配合并两个数据框?
注意:电影名称不完全相同
【问题讨论】:
-
首先您需要精确定义您认为的部分字符串匹配。国王怎么了?
-
我认为是参考的df2,参考中不存在国王。我的意思是电影的名字不完全一样。 exp 'The avengers:endgame' 在 ref (df2) 但在 df1 中是 'avengers:endgame'
-
查看
fuzzywuzzy或rapidfuzz以计算字符串距离,并为df1中的每个键输入df2以最小化列文斯坦距离