【发布时间】:2017-02-09 12:05:17
【问题描述】:
我是 python 新手,找到了计算 df 列中硬编码子字符串的答案,但在使用另一个 df 列作为输入时无法找到答案。熊猫可以做到这一点吗?
这很混乱,但基本上我的数据框是:
ID Info
3457 <type1><stats></id>3457<type2></id>3457<type2></id>45
234 <type2><stats></id>234
4555 <type2><stats></id>604555<type1></id>4555<type2></id>4555
2378 <stats></id>555
我已经设法计算了特定字符串的出现次数,例如
df['Type1_Count']=df['Info'].apply((lambda string: string.count("<type1>")))
df['Type2_Count']=df['Info'].apply((lambda string: string.count("<type2>")))
但是我还需要从第一列计算 ID 的出现次数,因为这些可能有错误匹配,所以确实需要对字符串“/id>”加上 ID强>列。
希望这是有道理的,感谢任何帮助。
【问题讨论】:
标签: python python-2.7 pandas substring