【发布时间】:2020-08-05 01:44:19
【问题描述】:
我有一个抓取推文的 DataFrame,我正在尝试删除部分重复的推文行。
以下是具有相同问题的简化 DataFrame。注意第一条推文和最后一条推文除了附加的 url 之外的所有内容都是相同的;我需要一种方法来删除像这样的部分重复,只保留最新的实例。
data = {
'Tweets':[' The Interstate is closed www.txdot.com/closed',\
'The project is complete www.txdot.com/news',\
'The Interstate is closed www.txdot.com/news'],
'Date': ['Mon Aug 03 20:48:42', 'Mon Aug 03 20:15:42', 'Mon Aug 03 20:01:42' ]
}
df =pd.DataFrame(data)
我尝试使用下面的 drop_duplicates 方法删除重复项,但似乎没有一个论据来完成此操作。
df.drop_duplicates(subset=['Tweets'])
任何想法如何做到这一点?
【问题讨论】:
-
请不要因为第一次没有得到回复而连续两次发布相同的问题。
-
将它们视为重复的确切标准是什么?一旦你知道你想做什么,我们就可以对其进行编程
-
@ansev Duplicates 是具有相同文本的推文,即使它们的 url 不同
标签: pandas duplicates