【发布时间】:2016-05-18 11:34:13
【问题描述】:
我一直在寻找解决方案/库或任何对单个段落进行文本分类的函数,而无需任何 R 相关培训。我需要单独对联络中心呼叫数据进行分类/分类。呼叫需要根据座席或呼叫者使用的术语进行分类。这些术语可能不是连续的,因此它不遵循二元组。
例如,以下示例文本应归类为“路由器 Internet 问题”之类的内容
“您好,感谢您致电 XYZ 解决方案。我是 Mark。有什么可以帮助您的吗? 嗨,我一直面临连接互联网的问题。我的路由器好像有问题。 "
我在 R 中尝试过 OpenNLP、RTextTools 库,但不知道如何处理单个段落。有没有人有任何想法?任何帮助表示赞赏。
已编辑 因为我是 R 的初学者,所以如果可能的话,我会非常感谢一个彻底的解决方案
【问题讨论】:
-
这看起来是一个非常广泛的问题。你尝试了什么?请添加包含示例数据的代码行 - 准备在 R 中复制粘贴运行以进行复制。
-
你能创建一个包含所有唯一类别的向量吗?
-
另一方面,您可以创建一个带有关键词的向量,并使用该向量从每个段落中提取这些关键词(如果有的话)
-
确实@lukeA,非常广泛!
-
感谢您的回复,LukeA 我从这里尝试了 RTextTools 提供的解决方案:journal.r-project.org/archive/2013-1/… Sotos,因为我已经提到我在 R 中很天真,所以无法这样做。您能提出其他解决方案吗?
标签: r nlp text-analysis