【发布时间】:2018-05-05 23:16:03
【问题描述】:
我正在将评论数据集加载到 pandas 中,作为处理的一部分,我想获取所有独特的词来创建 词袋。
由于文本包含在多行中,我首先必须合并它们。
我试过了:
all_text = df['review_body'].to_string()
words = set(a.split(' '))
words = list(words)
但我从那里得到了不正确的词,例如:
u'fel...\n1093'
【问题讨论】: