【发布时间】:2018-02-14 23:14:06
【问题描述】:
我有以下数据框a
a=pd.DataFrame([[1,'bayern'],[2,'bayern_leverkusen'],[3,'Chelsea'],
[4,'manunited'],[5,'westhamunited'],[6,'mancity']]
,columns=['no','club'])
我想迭代列 club,使 club 中的每个值都与 club 中的所有其他值一起迭代,并仅选择匹配 4 个或更多连续字符的那些。
对于 eq bayern 和 bayern_leverkusen 应该被过滤,因为它们包含相同的子字符串 bayern。同样,manunited 和 westhamunited 应该被过滤,因为它们包含相同的子字符串 united。
mancity 不应被过滤,因为匹配的子字符串 man 仅为 3。
预期输出:
no club
0 1 bayern
1 2 bayern_leverkusen
3 4 manunited
4 5 westhamunited
【问题讨论】:
-
您的尝试效果如何?
-
首先,我无法为每个 club 值动态创建长度为四或更多的子字符串。
-
另外,您的预期输出是什么?
-
旁注:德国足球俱乐部是
bayer_leverkusen,与拜仁无关(=巴伐利亚):) -
在问题中添加了预期的输出
标签: python regex pandas dataframe