【发布时间】:2014-11-21 19:48:35
【问题描述】:
我正在将几个基于前缀匹配在一起的 DF 合并在一起。这在 90% 的情况下可以创建语义正确的字符串,但有时,以这种方式合并可以创建“循环”在一起的短语。这是我的 DF 外观的示例,可以更好地解释我的意思:
Words Words1 Words2
Big Hitter Up and Down A Cold Lonely Night
Snail Mail Wood Grain Rail Cup of Lemon Tea
.... ..... .....
French Fries Bat Boy Bat Small Ball Small Ball
Phone Book Fee No Fee Hands up Hands up
第 2 列和第 3 列中的底部两个示例是我说它们“循环在一起”时的意思——即字符串包含相同单词的重复项。
我知道如何使用
删除这些短语re.sub(r'\b(.+)(\s+\1\b)+', r'\1', s)
但我需要它们完全消失。 有谁知道我将如何从我的 DF 中的每一列中删除这些包含重复单词的字符串?
所以我希望有这样的 DF
Words Words1 Words2
Big Hitter Up and Down A Cold Lonely Night
Snail Mail Wood Grain Rail Cup of Lemon Tea
.... ..... .....
French Fries
Phone Book
【问题讨论】:
标签: python python-3.x pandas