【发布时间】:2015-04-23 23:22:51
【问题描述】:
我是 python 新手,我正在执行情绪分析,但不知何故我必须删除重复的推文。问题是我想删除以相同的前 5 个单词开头的每条推文,使用如下功能:
f1 = csv.reader(open(r'C:\pp.csv', 'rb'))
writer = csv.writer(open(r'C:\oo.csv', 'wb'))
tweet = set()
for row in f1:
if row[1] not in tweet:
writer.writerow(row)
tweet.add( row[1] )
f1.close()
writer.close()
【问题讨论】:
-
首先不要在for循环中关闭f1和writer。让它们保持打开状态,直到完成所有迭代。其次,你得到的实际结果是什么,它与你想要的有什么不同?
-
推文是排序的还是随机的?整个文件可以保存在内存中吗?
-
最关键的问题是如何使用正则表达式来删除像这两条推文一样开头相同的推文的重复项:@tesco 的 dave lewis 正在打硬仗,正视 ‰ £6.38 的现实10 亿美元的损失:你无法...@tesco 的 dave lewis 中的 URL 营销正在努力应对 63.8 亿英镑损失的现实:你无法将... URL 数字化