泰坦尼克号训练[关闭]答案

【问题标题】：Titanic training [closed]泰坦尼克号训练[关闭]
【发布时间】：2022-01-03 08:22:59
【问题描述】：

所以我正在测试哪些机器学习模型在准确性方面表现最好，但它告诉我我的数据集太大：

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-43-534e381534e9> in <module>()
----> 1 models(x_train, y_train)

5 frames
/usr/local/lib/python3.7/dist-packages/sklearn/utils/validation.py in _assert_all_finite(X, allow_nan, msg_dtype)
    114             raise ValueError(
    115                 msg_err.format(
--> 116                     type_err, msg_dtype if msg_dtype is not None else X.dtype
    117                 )
    118             )

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

这里是代码审查的 github 链接：

https://github.com/tquigg96/TitanicSurvivalPredictions.git

如果有人对如何解决此问题有任何想法，那将非常有帮助。我不确定我做错了什么。

【问题讨论】：

你可能已经知道这一点，但Titanic 是 Kaggle 上一个非常受欢迎的话题。你会在那里找到很多示例笔记本。
感谢您的建议。我会看看那些。

标签： python scikit-learn

【解决方案1】：

逻辑回归的 sklearn 实现不处理 NaN（不是数字）-> 缺失值。这意味着您必须首先通过插补或删除具有缺失值的行来解决缺失值。

【讨论】：

哦，有道理