【问题标题】:Numpy - function updates global variable when it shouldn'tNumpy - 函数不应该更新全局变量
【发布时间】:2018-12-18 07:27:25
【问题描述】:

我正在实现一种机器学习算法,该算法将矩阵近似为其他两个矩阵的倍数:V ~= WH。 W 和 H 被随机初始化,并迭代更新,使 WH 更接近 V。

在我的代码中,在每次迭代中,我想 (i) 更新 W 和 H,以及 (ii) 根据 W 和 H 的新值计算分数。

我的问题是:我用来评分的函数应该只计算一个分数——它不应该影响 V、W或H——但它似乎会这样做!我不知道为什么该函数会影响全局变量 - 我认为只有在您声明 global foo 等形式时才会发生这种情况。结果是在根据是否在每次迭代中计算分数来计算 W 和 H - 这是没有意义的。

下面是我尽可能精简的一些代码 - 它没有实现我的算法或做任何有意义的事情,它只是重现了问题,即根据您是否评论计算出的 W 存在微小差异出计算分数的线。

谁能明白为什么这会改变结果?

import numpy as np

# TRUE, GLOBAL VALUE OF V - should remain the same throughout
V = np.array([[0.0, 4.0, 0.0, 4.0],
              [0.0, 0.0, 1.0, 0.0],
              [4.0, 0.0, 0.0, 3.0]]).astype(float)

# RANDOM INITIALIZATIONS for two matrices, which are then updated by later steps
W = np.array([[ 1.03796229,  1.29098839],
              [ 0.49131664,  0.79759996],
              [ 0.66055735,  0.48055734]]).astype(float)
H = np.array([[ 0.06923306,  0.53105902,  1.1715193,   0.58126684],
              [ 1.71226543,  0.54797385,  0.70978869,  1.58761463]]).astype(float)

# A small number, which is added at some steps to prevent zero division errors/overflows
min_no = np.finfo(np.float32).eps

# A function which calculates SOME SCORE based on V_input - below is the simplest example that reproduces the error
# This function should ONLY calculate and return a score - IT SHOULD NOT UPDATE GLOBAL VARIABLES!
def score(V_input):

    V_input[V_input == 0] = min_no # I believe that THIS LINE may be UPDATING GLOBAL V - but I don't understand why
    scr = np.sum(V_input)

    return scr

# This function UPDATES the W matrix
def W_update(Vw, Ww, Hw):

    WHw = np.matmul(Ww, Hw)
    WHw[WHw == 0] = min_no
    ratio = np.matmul(np.divide(Vw, WHw), np.transpose(Hw))

    return np.multiply(Ww, ratio)

# Repeated update steps
for it in range(10):

    # Update step
    W = W_update(V, W, H)

    # SCORING STEP - A SCORE IS CALCULATED - SHOULD NOT UPDATE GLOBAL VARIABLES
    # HOWEVER, IT APPEARS TO DO SO - SMALL DIFFERENCES BETWEEN FINAL W WHEN COMMENTED OUT/NOT COMMENTED OUT
    score_after_iteration = score(V)

# THE OUTPUT PRINTED HERE IS DIFFERENT DEPENDING ON WHETHER OR NOT THE SCORING STEP IS COMMENTED OUT - WHY?
print(W[:2,:2]) # Just a sample from W after last iteration

【问题讨论】:

  • 因为您传递了V 的引用,因此编辑了该精确矩阵。
  • V_input 只是传入数组的本地名称,所以它是同一个数组,而不是副本。如果您需要副本,则必须创建一个。

标签: python numpy machine-learning global-variables matrix-factorization


【解决方案1】:

或者,将您的 score 函数更改为不更新其任何输入:

def score(V_input):
    return np.sum(np.where(V_input == 0, min_no, V_input))

【讨论】:

    【解决方案2】:

    如果你传递一个变量,你传递一个 reference 到那个对象。因此,如果您使用 V 调用函数,则传递对矩阵 V 的引用,因此对矩阵的更新是对该对象的编辑。例如,如果您传递对该列表的引用,然后函数编辑该列表,那么您确实没有编辑了该列表的副本,而是编辑了列表本身,因此这些更改可以在外部看到来电。

    但是,您可以制作副本,例如:

    for it in range(10):
    
        # Update step
        W = W_update(V, W, H)
    
        score_after_iteration = score(V.copy())

    顺便说一句,W_update 也是如此,但这可能不是问题。

    【讨论】:

    • 非常感谢 - 这对我帮助很大!
    猜你喜欢
    • 1970-01-01
    • 2018-03-14
    • 1970-01-01
    • 2020-09-09
    • 2016-11-03
    • 2013-02-09
    • 2020-04-22
    • 1970-01-01
    • 2022-01-20
    相关资源
    最近更新 更多