【问题标题】:best way to analyze titanic dataset分析泰坦尼克号数据集的最佳方法
【发布时间】:2022-07-25 18:26:20
【问题描述】:

我正在尝试处理泰坦尼克号数据集 (dataset),我想知道最好的阵容是什么。 我在想:

  • 显示数据
  • 数据信息
  • 删除空值
  • 数据信息再次
  • 男性/女性存活直方图
  • 按年龄划分的男性/女性存活率直方图(看看 3 岁的女孩是否比成年男性有更多的存活机会)
  • 按社会经济阶层划分的幸存者直方图(阶层越低是否意味着生存机会越低?)

我还能分析哪些其他参数?

【问题讨论】:

    标签: python pandas dataframe matplotlib jupyter-notebook


    【解决方案1】:

    显示数据信息后,您可以继续估算年龄列。您可以通过用总体平均值填充空值来执行此操作,也可以找到每个乘客类别的平均年龄值。

    def impute_age_passenger_class(data):
        Age = data[0]
        PClass = data[2]
        
        if pd.isnull(AgeP):
    
            if Pclass == 1:
                return 37
            elif Pclass == 2:
                return 29
            else:
                return 24
    
        else:
            return Age
    

    那么(假设数据集存储在名为“train”的数据框中):

    train['Age'] = train[['Age','Pclass']].apply(impute_age,axis=1)
    

    您还可以将分类值转换为数据集中的虚拟变量:

    sex = pd.get_dummies(train['Sex'],drop_first=True)
    embark = pd.get_dummies(train['Embarked'],drop_first=True)
    train.drop(['Sex','Embarked','Name','Ticket'],axis=1,inplace=True)
    train = pd.concat([train,sex,embark],axis=1)
    

    【讨论】:

      猜你喜欢
      • 2019-03-01
      • 1970-01-01
      • 2021-07-29
      • 2017-06-27
      • 2017-03-08
      • 2016-06-19
      • 2022-01-03
      • 2020-10-25
      • 1970-01-01
      相关资源
      最近更新 更多