逻辑回归和词袋答案

【问题标题】：Logistic regression and bag of words逻辑回归和词袋
【发布时间】：2021-05-20 22:13:42
【问题描述】：

据我了解，X1 将是单词的出现，而 beta1 将是该单词的权重。我的问题是关于重量是如何计算的？基于什么？

【问题讨论】：

也许您应该引用指向您的问题的链接或查看其他相关论坛...stats.stackexchange.com 或 ai.stackexchange.com

标签： python machine-learning nlp statistics data-science

【解决方案1】：

这有点困难，因为我不知道你到底想做什么。但总的来说，您有数据为您提供 Xs。和一个结果。结果应该是伯努利分布。这意味着只有两种结果是可能的。现在你根据你的 X 计算一个概率。例如，您想知道一个文本是否是关于汤姆汉克斯的。如果文本中有“Tom”这个词，你的 x1 就是 1。 X 还可以描述“Tom”在文本中出现的频率。您尝试选择一个 beta，以便 beta1*x1 中的 sogmoid 函数返回正确的概率，即文本是关于“汤姆汉克斯”的。如果文本中出现“汤姆”一词。为了计算 beta normaly，使用了一些机器学习算法，例如梯度下降。我简化了一点来理解这个想法。我认为this 解释得很好。最后，您会从您的数据中获得一个模型，该模型可以预测新数据的结果，而您只知道 X。

【讨论】：

我正在尝试做一个假新闻分类器，但我仍在学习并想知道它是如何工作的，因为我找不到任何能真正解释它的东西，但你告诉我要阅读的文件，解释得很好。