【问题标题】:What is the best practice to calculate the similarity between two couples of X And y计算两对 X 和 y 之间相似度的最佳实践是什么
【发布时间】:2020-05-26 09:38:26
【问题描述】:

我对一个元素有一些价值观。例如,element1: values1, values2。 对于每个元素,我需要计算给定数量的特征的“分数”。 假设我们有一个特征表示为:

  • 特征 1 的高分由 value1 的高分和 value2 的低分给出。

所以,如果我假设 value1 (1) 的高分和 value2 (0) 的低分对应于“feature1”的高分,那么计算给定为 value1 的 feature1 的得分的最佳做法是什么? value2 两个不同的分数? (例如 value1=0.7,value=0.2)。 我使用 Python 作为编程语言,我更喜欢使用 sklearn 广告模块,但所有适合的解决方案都会被接受。

【问题讨论】:

    标签: python machine-learning scikit-learn


    【解决方案1】:
    1. 首先标准化您的数据。一种归一化是让你的 values1, values2 在 [0,1] 范围内。
    2. 假设基于归一化数据的特征 1 的平均 2 值表征为 (.7, .2)。对于任何新的 2 值 (x,y),计算 (x,y) 和 (.7,.2) 之间的距离

    机器学习计算距离时,通常不计算sqrt分量。

    dist^2 = (x-.7)^2 + (y-.2)^2
    

    您可能还对计算 2 值 (x,y) w.r.t 到 (.7,.2) 的误差感兴趣,并且可以查看分类交叉熵。

    【讨论】:

    • 您好,谢谢您的回答。一个问题:是否有一种方法可以通过诸如逻辑回归之类的模型来计算它?因为我总是在一些文献中读到这个过程是通过一个合适的模型完成的。谢谢
    • 最小二乘回归“找到最佳拟合线”是通过最小化线和数据点之间的距离来完成的。假设您的行 - 为简单起见 - 具有方程 f(a) = ma。您的目标是找到一个值 m 以最小化 f(a) 和所有数据点之间的距离之和 - 一条线和单个点 (x,y) 之间的距离是 (ax)^2+ (ma-y) ^2。可以使用微积分求距离之和对 m 的导数,以找到一个封闭的解决方案。对于具有多个参数的更复杂的模型,您仍然可以使用相同的方程,但您需要估计最小值
    • 通过使用梯度下降等技术,这是现代神经网络的运作方式。
    猜你喜欢
    • 2016-09-25
    • 2020-03-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-08-09
    • 1970-01-01
    • 2017-08-22
    • 2012-03-11
    相关资源
    最近更新 更多