【问题标题】:removing links from dataset从数据集中删除链接
【发布时间】:2020-07-18 01:00:04
【问题描述】:

我有以下数据集,我需要从中删除所有链接。 csv 看起来像这样:

有谁知道我怎样才能快速轻松地做到这一点?

【问题讨论】:

    标签: python excel twitter hyperlink


    【解决方案1】:

    你可以像这样在python中使用正则表达式:

    import re 
    
    for x in list :
         re.sub("http\S*\s", "", x)
    

    其中 list 是您的 csv 数据的列表。

    这是我用来预处理 Twitter 数据的代码:

    all_text  = re.sub("#\S*\s", "", all_text)
    all_text  = re.sub("W+", "", all_text)
    all_text  = re.sub("@\S*\s", "", all_text)
    all_text  = re.sub("http\S*\s", "", all_text)
    

    【讨论】:

    • 这是一个我也发现有用的包:pypi.org/project/tweet-preprocessor
    • 太棒了!太感谢了!那个推文预处理器包太有用了!回答了我的问题等等!
    猜你喜欢
    • 1970-01-01
    • 2013-09-14
    • 1970-01-01
    • 1970-01-01
    • 2015-07-08
    • 2019-10-25
    • 1970-01-01
    相关资源
    最近更新 更多