【发布时间】:2021-12-16 11:26:41
【问题描述】:
我正在尝试使用 NLP 来查看调查回复与预定类别的匹配程度。我不能使用普通的文本分类方法,因为给定的响应通常包含多个类别。
相反,我提取了每个类别中最常用的 10-20 个单词,并且我想构建一个脚本来输入调查响应并计算它与每个单词列表的对齐程度。理想情况下,我希望它也能识别与每个列表中相似的单词。最终结果应该是一个向量,描述响应与每组单词的对齐程度。
到目前为止,我唯一的想法是使用一个 for 循环来遍历响应中的每个单词,而每个组都有一个计数器,如果一个单词匹配,它就会上升。但是,这在处理同义词或类似词时没有用。有没有办法解决这个问题?
【问题讨论】:
-
SO 是针对编程问题的,您的问题更多是关于设计的,因此它更适合datascience.stackexchange.com。简短的回答:有很多可能性,最简单的是将单词视为一个集合并计算overlap coefficient。稍微高级一点,余弦与TFIDF vectors。比词嵌入更高级的相似性,以捕获语义相似性。
标签: nlp text-classification supervised-learning