【发布时间】:2021-02-02 03:47:10
【问题描述】:
所以我有这样的数据:
Restaurant Rating Address
Birdman 5 18 Parc SCBD, Tower B, Lantai Ground, Jl. Jenderal Sudirman Kav 52 - 53
Bistecca 4 18 Parc SCBD, Tower C, Lantai Ground, Jl. Jenderal Sudirman Kav 52-53, SCBD, Jakarta
Lake View 5 The Spring Club, Jl. Springs Boulevard Blok C No. 1
Lake View Cafe 4.5 The Springs Club, Jl. Springs Boulevard Blok C No. 1
Henshin 4.2 The Westin Jakarta, Lantai 67 - 69, Jl. HR Rasuna Said Kavling C No. 22A
Henshin 4.4 The Westin Jakarta, Lantai 67-69, Jl. H. R. Rasuna Said, Kuningan, Jakarta 12940
Hua Shen 4.3 THR Lokasari, Jl. Mangga Besar Raya
KFC 4.3 THR Lokasari, Jl. Mangga Besar Raya
这是 26k 餐厅列表的一些示例,包括它们的属性,如评级、地址等,来自两个不同的网站。将它们合并到一个 csv 中,这样可以填补彼此缺少的餐厅名称数据。我需要的是摆脱具有相同名称和相同地址的行。但是正如您所看到的,有一些名称相同但地址相似的数据,即使第一个“Henshin”带有块和编号,而第二个没有它但有一个地区和邮政编码。
而且有不同的餐厅名称但相同的地址。当然,我的 csv 上有一行具有相同名称和地址的行。但对我来说困难的是像上面那样的行。有没有办法删除同名但地址相似的行?来自 Excel 或 Python。
【问题讨论】: