【发布时间】:2019-12-12 03:34:19
【问题描述】:
我的目标是文本摘要,不确定我是否正确,但这是计划。我有一个名为 train_data 的数据框。每行中的每个单元格都包含消息。现在,我希望使用 gensim.summarization.keyword 包遍历数据框列中的每个单元格或每个消息以从每个消息中获取关键字。
我知道关键字函数将文本作为输入,并且我无法将整个 df 列传递到内部,因此尝试将关键字函数上的每个单元格作为文本进行迭代,但它似乎不起作用。我在这里想念什么?这是我的代码。
cols = train_data.new_msg
for col in cols:
cols
train_data['keywords'] = keywords(col)
然后我计划计算原始消息与新消息的长度(即关键字列)以获得压缩率/比率。
【问题讨论】:
-
用于计算原始消息的长度,你想要唯一字数还是需要所有单词来计算长度????
标签: python nlp nltk gensim text-classification