【发布时间】:2021-05-25 23:14:19
【问题描述】:
我有一个包含大约一百万条记录“A”的数据框和一个包含 1000 条记录“B”的较小数据框,我想将其添加到数据框“A”中。
这里有一个问题:某些记录可能已经在表“A”中,但名称略有不同,我不想添加重复项。因此,我们的想法是为数据帧“B”的记录得出一个相似度分数,这样我就可以得出一个截止值,留下一个干净的数据帧“B”来添加到数据帧“A”。
例如:数据框“A”包含一百万条街道名称记录。
| ZIP | Street |
|---|---|
| 1234 | Flower Street 1 |
| 1234 | Rose Street 2 |
| 1234 | Dog Street 3 |
| 1234 | Cat Street 4 |
| 1234 | Mouse Street 5 |
数据框“B”:
| ZIP | Street |
|---|---|
| 1234 | Flowr Street 1 |
| 1234 | Unique Street 2 |
| 1234 | Dogg Ztreet 3 |
| 1234 | Unique Street 4 |
| 1234 | Mouz Str 5 |
我想象决赛桌看起来像这样,例如,我稍后会删除得分 >75% 的记录。
| ZIP | Street | Score |
|---|---|---|
| 1234 | Flowr Street 1 | 90% |
| 1234 | Unique Street 2 | 5% |
| 1234 | Dogg Ztreet 3 | 78% |
| 1234 | Unique Street 4 | 1% |
| 1234 | Mouz Str 5 | 84% |
现在,甚至在考虑创建某个分数之前,我都被困在如何仅从较小的数据帧“B”中选择一条记录,以将其与“A”的整个数据帧进行比较。
有人知道吗?
【问题讨论】:
标签: python pandas dataframe machine-learning scoring