【问题标题】:Logistic regression and bag of words逻辑回归和词袋
【发布时间】:2021-05-20 22:13:42
【问题描述】:

据我了解,X1 将是单词的出现,而 beta1 将是该单词的权重。我的问题是关于重量是如何计算的?基于什么?

【问题讨论】:

标签: python machine-learning nlp statistics data-science


【解决方案1】:

这有点困难,因为我不知道你到底想做什么。但总的来说,您有数据为您提供 Xs。和一个结果。结果应该是伯努利分布。这意味着只有两种结果是可能的。现在你根据你的 X 计算一个概率。例如,您想知道一个文本是否是关于汤姆汉克斯的。如果文本中有“Tom”这个词,你的 x1 就是 1。 X 还可以描述“Tom”在文本中出现的频率。您尝试选择一个 beta,以便 beta1*x1 中的 sogmoid 函数返回正确的概率,即文本是关于“汤姆汉克斯”的。如果文本中出现“汤姆”一词。为了计算 beta normaly,使用了一些机器学习算法,例如梯度下降。我简化了一点来理解这个想法。我认为this 解释得很好。最后,您会从您的数据中获得一个模型,该模型可以预测新数据的结果,而您只知道 X。

【讨论】:

  • 我正在尝试做一个假新闻分类器,但我仍在学习并想知道它是如何工作的,因为我找不到任何能真正解释它的东西,但你告诉我要阅读的文件,解释得很好。
猜你喜欢
  • 1970-01-01
  • 2014-03-12
  • 2021-03-11
  • 2020-01-31
  • 2016-03-06
  • 2018-12-09
  • 2023-03-26
  • 1970-01-01
  • 2021-11-11
相关资源
最近更新 更多