【问题标题】:Remove mentions and special characters for twitter dataset删除 twitter 数据集的提及和特殊字符
【发布时间】:2021-06-25 11:57:03
【问题描述】:

我试图从这个数据框中删除提及和特殊字符作为“!?$ ...”,尤其是字符“#”,但保留主题标签的文本。

我想要这样的东西:

tweet                                          clean_tweet
---------------------------------------------|-----------
"This is an example @user2 #Science ! #Tech" | "This is an example Science Tech"
"Hi How are you @user45 #USA"                | "Hi How are you USA"

我不确定如何在推文列中的数据框中进行迭代和执行此操作 我试过用这个来处理特殊字符

df["clean_tweet"] = df.columns.str.replace('[#,@,&]', '')

但我有这个错误

ValueError: Length of values (38) does not match length of index (82702)

【问题讨论】:

    标签: python dataframe data-cleaning


    【解决方案1】:

    您正在尝试处理列名

    试试这个

    df["clean_tweet"] = df["tweet"].str.replace('[#,@,&]', '')
    

    【讨论】:

      【解决方案2】:

      我看到你想删除@user。所以我在这里使用了正则表达式

      df['clean_tweet'] = df['tweet'].replace(regex='(@\w+)|#|&|!',value='')
      
          tweet                                       clean_tweet
      0   This is an example @user2 #Science ! #Tech  This is an example Science Tech
      1   Hi How are you @user45 #USA                 Hi How are you USA
      

      【讨论】:

        猜你喜欢
        • 2014-07-22
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2014-05-15
        • 2023-03-25
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多