【问题标题】:Calculate Pearson's Coefficient for Multidimensional features计算多维特征的皮尔逊系数
【发布时间】:2021-02-25 16:14:19
【问题描述】:

我有一个 pandas 数据框,其中每一行对应一个样本,每一列代表一个特征。现在我的一个列是一个字符串列,其中包含“这是一个红苹果”之类的文本。如何将其转换为可以为此数据帧计算 pearson 相关矩阵的形式? 同样,我还有另一列包含标识符列表。

下面是一个例子:

 id     text                   list_of_ids      score1 score2
 1.    "This is An apple"      [1, 2, 3, 4]     4.6.   1.0
 2.    "This is An orange"     [1, 5, 6]        5.2    1.4

【问题讨论】:

    标签: pandas correlation pearson


    【解决方案1】:

    使用-

    pd.concat([df, df['col1'].str.get_dummies(sep=' ')], axis=1)
    

    输出

        col1    col2    col3    col4    An  This    apple   is  orange
    0   This is An apple    [1, 2, 3, 4]    4.6 1.0 1   1   1   1   0
    1   This is An orange   [1, 5, 6]   5.2 1.4 1   1   0   1   1
    

    然后您可以使用 .drop 删除不需要的列

    【讨论】:

    • 如果词的数量可以增长得很大怎么办?这仍然是计算相关性的正确方法吗?
    猜你喜欢
    • 2013-10-12
    • 2011-08-12
    • 2023-03-14
    • 2019-12-12
    • 2012-11-18
    • 1970-01-01
    • 2021-08-29
    • 2018-06-18
    • 1970-01-01
    相关资源
    最近更新 更多