【发布时间】:2018-02-20 12:23:30
【问题描述】:
我在 excel 中有一个产品评论/描述列表,我正在尝试使用 Python 根据评论中出现的单词对它们进行分类。
我使用 Pandas 将评论和表明产品属于特定分类的单词列表导入 Python,然后计算分类单词的出现次数。
这一切都适用于单个分类词,例如“计算机”,但我正在努力使其适用于短语,例如'笔记本电脑壳'。
我浏览了一些答案,但没有一个对我来说是成功的,包括:
根据此处的答案仅使用text.count(['laptop case', 'laptop bag']):Counting phrase frequency in Python 3.3.2,但是因为您需要将文本拆分为不起作用的文本(我认为 text.count 也可能不适用于列表?)
我发现的其他答案只看一个单词的出现。我可以做些什么来计算不涉及将文本正文拆分为单个单词的单词和短语?
我目前拥有的代码(适用于单个术语)是:
for i in df1.index:
descriptions = df1['detaileddescription'][i]
if type(descriptions) is str:
descriptions = descriptions.split()
pool.append(sum(map(descriptions.count, df2['laptop_bag'])))
else:
pool.append(0)
print(pool)
【问题讨论】:
标签: python pandas text-classification