【问题标题】:Pandas string tokeniztion too slowPandas 字符串标记化太慢
【发布时间】:2019-11-24 16:04:43
【问题描述】:

我在 Pandas DataFrame 中有一个列,其中每一行都有一些字符串,其中包含像 'senior data consultant' 这样的职位描述,并且这些行大约有 1,000,000 行。我想将此字符串缩短为第一个单词(在该示例中将给出'senior')。下面的代码没有错误。

def proc_Profession(df):
    for row in range(df['Profession'].size):
        try:
            df['Profession'].iloc[row] = df['Profession'].iloc[row].split(' ')[0]
        except AttributeError:
            df['Profession'].iloc[row] = 'unknown'
    return df

我遇到的问题是这太慢了(需要几个小时),有没有更快的方法?

【问题讨论】:

  • 不能只使用df["Profession"].str.split().str[0]
  • 好的,谢谢!

标签: python pandas token


【解决方案1】:

按照Henry Yik的建议,下面的速度明显更快

def proc_Profession(df):
    df['Profession'] = df['Profession'].str.split().str[0]
    return df

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-11-22
    • 1970-01-01
    • 1970-01-01
    • 2018-12-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多