【发布时间】:2017-11-08 19:09:00
【问题描述】:
我正在尝试对 2 个类别(二进制分类)的数据集执行情感分析。数据集关于70% - 30% 严重不平衡。我正在使用LightGBM 和Python 3.6 来制作模型并预测输出。
我认为我的模型的数据集效果性能不平衡。我得到了大约90% 的准确性,但即使我已经对参数进行了微调,它也不会进一步增加。我不认为这是最大可能的准确度,因为还有其他人的得分比这更好。
我已经用Textacy 和nltk 清理了数据集。我正在使用CountVectorizer 对文本进行编码。
我已经尝试up-sampling 数据集,但它导致模型很差(我没有调整那个模型)
我曾尝试使用LightGBM 的is_unbalance 参数,但它并没有给我更好的模型。
有什么方法可以处理这种不平衡的数据集吗?我怎样才能进一步改进我的模型。?我应该尝试下采样吗?或者它是最大可能的精度。?我怎么能确定呢?
【问题讨论】:
标签: python-3.x machine-learning nlp sentiment-analysis lightgbm