【发布时间】:2021-02-02 08:45:24
【问题描述】:
我有什么:
我有一个包含 2 列的 DataFrame (df)。
在df["Words"] 我有一些波斯语\波斯语单词。
| Words | Counts |
|---|---|
| سلام | |
| کشور زیبا ؟ | |
| 28 % ایران | |
| ایران طلا | |
| طلا ایران | |
| سلام ایران |
我会做什么:
我会将单词分开并计算“单词”列中每个单词的频率:
| Words | Counts |
|---|---|
| سلام | 2 |
| کشور | 1 |
| زیبا | 1 |
| ؟ | 1 |
| ایران | 4 |
| طلا | 2 |
| % | 1 |
我做了什么:
df.Words.str.get_dummies(sep=' ').mul(df['count'], axis=0).sum()
我从 python 收到的信息:
| Words | Counts |
|---|---|
| سلام | NAN |
| کشور | NAN |
| زیبا | NAN |
| ؟ | NAN |
| ایران | NAN |
| طلا | NAN |
| % | NAN |
问题是格式还是代码?
【问题讨论】: