【发布时间】:2021-09-15 22:37:14
【问题描述】:
我了解如何使用预定义的单词列表计算 pandas 列中匹配的单词并将计数分配到另一列(类似于this post here)。但我想知道是否有一种方法或函数可以将计数分配给按列样式匹配的单词列。
index | text
1 | "I have a pen and ipod, but I lost it today."
2 | "I have pineapple and pen, but I lost it today."
long_list = ['pen', 'pineapple', 'ipod']
index | text | pen | pineapple | ipod |
1 | "I have a pen and ipod, but I lost it today." | 1 | 0 | 1 |
2 | "I have pineapple and pen, but I lost it today." | 1 | 1 | 0 |
【问题讨论】:
-
如果一行中有重复的单词(例如2),你要算1还是2?
-
好问题。在这种情况下,我会将它们算作 1。@SeaBean
-
部分单词匹配怎么样?
pencil是否应该与pen匹配? -
另一个好问题。是的,我确实想引入模糊匹配——比如
pencils和pencil和Pencils。 @SeaBean -
那很好。允许部分单词匹配并且多次出现只计算一次。公认的解决方案在这方面效果很好。 :-)