【问题标题】:Clean python tweepy out put for csv file为csv文件清理python tweepy输出
【发布时间】:2017-12-17 03:20:32
【问题描述】:

我正在使用 python tweepy 收集 Twitter 数据,代码如下:

class listener (StreamListener):
def on_data(self, raw_data):

    data = json.loads(raw_data)
    print data.keys()
    tweet = data['text'].encode("utf-8")
    tweet_id = data['id']
    time_tweet = data['timestamp_ms']
    date = datetime.datetime.fromtimestamp(int(time_tweet) / 1000)
    new_date = str(date).split(" ") [0]
    print new_date
    user_id = data['user']['id']
    with  open('twitDB.csv','ab') as csvfile:
        myfile = csv.writer(csvfile)
        myfile.writerow([tweet_id,new_date,tweet,user_id])



    return True

def on_error(self, status_code):
    print status_code
auth = OAuthHandler(consumer_key,consumer_secret)
auth.set_access_token(access_token,access_token_secret)
twitterStream = Stream(auth,listener())
twitterStream.filter(track=["car"])

这是推文的输出

我如何删除重复、删除标点符号、删除推文中的数字,以及 删除长度小于2的单词。

是否有任何现成的解决方案可用于清理 tweepy 数据?

【问题讨论】:

    标签: python csv twitter tweepy


    【解决方案1】:

    您可以使用list comprehension 快速解决问题。

    import string
    text = "I am a 2 tweet."
    result = [i.strip(string.punctuation) for i in text.split() if not any ([len(i) < 2, i in string.punctuation, i.isdigit()])]
    

    ['am', 'tweet']

    您可以在结果列表中使用set() 删除重复的单词,并通过使用

    再次将其变为str
     " ".join(result)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2013-07-04
      • 1970-01-01
      • 2021-03-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多