Pandas 字符串标记化太慢答案

【问题标题】：Pandas string tokeniztion too slowPandas 字符串标记化太慢
【发布时间】：2019-11-24 16:04:43
【问题描述】：

我在 Pandas DataFrame 中有一个列，其中每一行都有一些字符串，其中包含像 'senior data consultant' 这样的职位描述，并且这些行大约有 1,000,000 行。我想将此字符串缩短为第一个单词（在该示例中将给出'senior'）。下面的代码没有错误。

def proc_Profession(df):
    for row in range(df['Profession'].size):
        try:
            df['Profession'].iloc[row] = df['Profession'].iloc[row].split(' ')[0]
        except AttributeError:
            df['Profession'].iloc[row] = 'unknown'
    return df

我遇到的问题是这太慢了（需要几个小时），有没有更快的方法？

【问题讨论】：

不能只使用df["Profession"].str.split().str[0]？
好的，谢谢！

标签： python pandas token

【解决方案1】：

按照Henry Yik的建议，下面的速度明显更快

def proc_Profession(df):
    df['Profession'] = df['Profession'].str.split().str[0]
    return df

【讨论】：