【发布时间】:2010-01-13 17:23:08
【问题描述】:
我正在手动将 Twitter 消息标记为正面、负面、中立。我想了解是否有一些逻辑可以用来识别训练集的消息比例应该是正面/负面和中性?
所以例如如果我正在训练一个带有 1000 条推特消息的朴素贝叶斯分类器,那么 pos : neg : 中性的比例应该是 33 % : 33% : 33% 还是应该是 25 % : 25 % : 50 %
从逻辑上讲,在我看来,我训练(即为中性提供更多样本)系统会更好地识别中性句子,然后是它们是正面还是负面 - 这是真的吗?或者我在这里遗漏了一些理论?
谢谢 拉胡尔
【问题讨论】:
标签: nlp semantic-markup nltk semantic-analysis