【问题标题】:How to deal with a column in a pandas dataframe, which has multiple datatypes?如何处理具有多种数据类型的熊猫数据框中的列?
【发布时间】:2020-08-08 11:41:22
【问题描述】:

我正在使用活动识别数据集,他们使用传感器监控活动。在此,有一个名为“传感器状态”的列,其中包含不同数据类型的值。如果是运动传感器,传感器状态列中的值是“开”或“关”,但如果是光传感器,它有一个数值,例如 29.5 或 25 等。我需要将此数据集作为输入到分类器,但显然需要先对其进行编码。如何在此数据集上执行标签编码或一种热编码?或者,有没有办法为不同的传感器创建不同的列,然后存储它们的状态值?

【问题讨论】:

    标签: python pandas dataset lstm


    【解决方案1】:

    您可以使用 pandas 分类数据类型:

    # create a series (with mixed types and repeated values):
    import pandas as pd
    
    s = pd.Series(['ON', 'OFF', 20.5, 21, 21.5, 21.5, 21.5])
    s = pd.Categorical(s)
    print(s)
    
    [ON, OFF, 20.5, 21, 21.5, 21.5, 21.5]
    Categories (5, object): [20.5, 21, 21.5, OFF, ON]
    

    在分类器中使用s.codes(这些将是连续的整数):

    s.codes
    
    array([4, 3, 0, 1, 2, 2, 2], dtype=int8)
    

    然后,您可以使用s.categories 将代码转换回原始值:

    s.categories
    
    Index([20.5, 21, 21.5, 'OFF', 'ON'], dtype='object')
    

    【讨论】:

      猜你喜欢
      • 2022-11-03
      • 1970-01-01
      • 2022-12-08
      • 1970-01-01
      • 1970-01-01
      • 2016-02-06
      • 2016-12-13
      • 2020-02-07
      • 1970-01-01
      相关资源
      最近更新 更多