【发布时间】:2017-11-21 04:54:15
【问题描述】:
您好 Stackoverflow 用户,
我有一个问题想解决,涉及将“关键词”转换为“通用词”存储桶。
我有一个表格,我循环使用它来替换某些单词,例如
**genericword** **keyword**
slowness slow speed
slowness internet slow
一个名为 test_data 的数据集包含一个名为 feedback_text 的文本列,其中包含一个句子。我想做的是将 keyword 组中的任何文本替换为 genericword。
例如其中 feedback_text = '互联网速度很慢' 应替换为 '互联网速度很慢'
但是,当使用下面的代码时,会出现带有额外“s”的“互联网速度很慢”,
test_data['feedback_text'].str.replace(row['keyword'],row['genericword'])
我该如何解决这个问题?
谢谢
【问题讨论】:
-
指定一些输入输出
-
您可以声明,如果您的文本没有被空格(或其他分隔符)包围,您只需删除文本直到分隔符,然后替换为替代项。这样多余的 s 就会消失
-
应该更换“慢速”吗?为什么不是关键字?