【发布时间】:2023-03-16 03:02:01
【问题描述】:
我正在尝试训练一个分类器来对来自 2 个用户之间聊天的文本进行分类,以便稍后我可以预测这两个用户中谁更有可能说 X 个句子/单词。为了到达那里,我从聊天日志中挖掘了文本,最后得到了两个单词数组,UserA_words 和 UserB_words。
我必须以哪种格式转换此数组以将其传递给分类器,如 naiveBayes 或 SVM?我如何通过例如一袋词表示到分类器?
【问题讨论】:
-
在姐妹网站DataScience.SE 上询问将什么 ML 表示用于特定分类任务是主题。请迁移到那里。
-
搁置它是没有建设性的:要么迁移到 DataScience.SE,要么在此处保持打开状态。我的回答表明这有一个实际的答案。
-
@smci 抱歉,我是新来的,我在 Data Science SE 中发布了一个类似的问题,但是如何迁移这个问题?提前谢谢你
-
whiteTea 你无能为力 - 是 >3k reputation 的用户投票关闭而不是迁移,而不是投票重新打开或迁移。
-
请不要交叉发帖,但既然你已经在 DataScience.SE 上发布了this,我们就去那边发帖吧。
标签: python machine-learning scikit-learn svm naivebayes