【发布时间】:2016-04-07 22:00:46
【问题描述】:
我想对一组卖家进行排名。每个卖家由参数 var1,var2,var3,var4...var20 定义。我想给每个卖家打分。
目前我正在通过为这些参数分配权重来计算分数(例如 10% 分配给 var1,20% 分配给 var2 等等),这些权重是根据我的直觉确定的。 p>
我的分数方程看起来像
score = w1* var1 +w2* var2+...+w20*var20
score = 0.1*var1+ 0.5 *var2 + .05*var3+........+0.0001*var20
我的分数方程也可能看起来像
score = w1^2* var1 +w2* var2+...+w20^5*var20
其中 var1,var2,..var20 是标准化的。
我应该使用哪个等式? 有哪些方法可以科学地确定,分配什么权重?
我想优化这些权重,使用一些面向数据的方法来改进评分机制,从而获得更相关的分数。
示例
我为卖家提供以下功能
1] 订单履行率 [数字]
2] 订单取消率 [数字]
3] 用户评分 [1-5] { 1-2:最差,3:一般,5:好} [分类]
4] 确认订单所需的时间。 (时间越短越好是卖家)[数字]
5] 价格竞争力
有没有更好的算法/方法来解决这个问题?计算分数?即我线性添加了各种功能,我想知道更好的方法来构建排名系统?
如何得出权重值?
除了使用上述功能外,我还能想到的还有好评与差评的比率、损坏商品的比率等。这些如何适合我的评分公式?
【问题讨论】:
-
您的问题可能会因为过于宽泛而被关闭,但我可能会从随机森林开始,因为您的功能集相当小。您也可以尝试寻找矩阵方程的最佳拟合解。
-
随机森林是一个分类器,但我想计算权重,然后寻找评分公式
-
随机森林还将为您提供每个预测变量的重要性指标,以及一个可以预测新的看不见的输入将如何响应的函数。它是一个函数,与任何其他机器学习方法一样。
-
我还可以使用基尼指数或熵来确定哪个预测变量是重要的。有助于对大量数据点进行分类的功能将在此处排名更高。但是可以说我正在对卖家进行排名。我正在查看已完成的订单数量和失败的订单数量等功能。我正在寻找的是我为这些功能分配了什么权重?
-
multivariate gaussian 怎么样?这允许每个变量有自己的规模和单一的得分值。
标签: math machine-learning mathematical-optimization stat