【发布时间】:2020-10-11 16:18:55
【问题描述】:
我有两个基于位置的 pandas DataFrame。
df1:其中有一列包含完整地址,例如“Avon Road, Ealing, London, UK”。地址格式不同。
df1.address[0] --> "Avon Road, Ealing, London, UK"
df2:其中只有英国的城市,例如“伦敦”。
df2.city[5] --> "London"
在给定完整地址的情况下,我想定位第一个数据框的城市。这将在我的第一个数据帧上进行。
df1.city[0] --> "London"
方法1:对于df2中的每个城市,检查df1是否有这些城市,并将df1的索引和df2的城市存储在一个列表中。
我不确定我将如何做这件事,但我假设我会使用这段代码来确定是否存在部分字符串匹配并找到索引:
df1['address'].str.contains("London",na=False).index.values
方法 2:对于每个 df1 地址,检查是否有任何单词与 df2 中的城市匹配,并将 df2 的值存储在列表中。
我会假设这种方法更直观,但它的计算成本会更高吗?假设 df1 有数百万个地址。
如果这是一个愚蠢或简单的问题,我们深表歉意!任何指向最有效代码的方向都会有所帮助:)
【问题讨论】:
-
第二个方法,见answer和
str.extract,其中L代表你L=df2.city.tolist()或类似的东西 -
df1和df2大约包含多少行? -
@JérômeRichard df1 包含大约 300,000 行(增长),df2 包含 240 行(固定)。
标签: python pandas performance