使用Python - 2019版掌握基本机器学习的7个步骤

随着新的一年到来，我认为现在是重新审视这个概念的好时机，并为使用Python掌握机器学习建立了一条新的学习途径。通过这7个步骤，您可以使用Python掌握基本的机器学习！

作者：Matthew Mayo，KDnuggets。

对于那些对使用Python进行机器学习的速成课程感兴趣的人来说，有大量免费提供的材料。

前一段时间我写了7个步骤来掌握机器学习使用Python和7个步骤，以掌握机器学习使用Python，一对柱的实验，尝试聚集和组织一些这方面提供高质量的材料到了这样一个速成班。然而，这些帖子变得陈旧，此时已经存在了几年。随着新的一年到来，我认为现在是重新审视这个概念的好时机，并为使用Python掌握机器学习建立了一条新的学习途径。

这一次，我们将把路径分成3个帖子，每个帖子分别用于基本，中级和高级主题。但是，让我们确保我们在相对意义上查看这些术语，并且在通过（最终）高级帖子之后不要期望成为研究级别的机器学习工程师。学习路径的目标是那些对抽象意义上的编程，计算机科学概念和/或机器学习有一定了解的人，他们希望能够使用流行的Python库的机器学习算法的实现来构建他们自己的机器学习模型。

标题图片

第一篇文章将从零开始，让读者了解已经建立了一个环境，了解了Python，并针对不同的场景尝试了各种算法。我们将利用现有的教程，视频和各种各样的人的作品，因此对此处包含的任何内容的感谢应仅针对他们。

我没有为每个主题步骤（比如聚类）提供大量资源，而是尝试选择一两个质量教程，以及一个可访问的视频，初步描述给定主题的基础理论，数学或直觉。

如果步骤似乎主要针对机器学习算法，那就不用担心，因为您还会遇到其他重要概念，例如数据预处理，损失度量，数据可视化等等。

因此，抓住一杯你最喜欢的饮料，并参加系列中的三个中的第一个，并开始使用Python在这七个步骤中掌握基本的机器学习。

1.掌握Python基础知识

我为本节寻找了一些更新的材料，超出了我在之前的迭代中指出的那些，为了改变和为了跟上最新版本的Python。

Jerry Pussinen的这个GitHub存储库，包含“用于教学/学习Python 3的Jupyter笔记本”，似乎对Python有一个很好的概述，那些对编程有所了解或者有动力的人可以在几个小时内完成。您将需要安装Python 3.5+以及Jupyter笔记本。

因为随着我们的进步你将需要许多Python更受欢迎的科学库，我建议使用Anaconda发行版，你可以在这里下载（选择最新的Python 3.X版本，而不是 Python 2.X），而不是单独安装组件。只需启动安装程序，一旦完成，您将拥有Python，Jupyter笔记本以及您需要的其他所有内容。

2.了解Python科学计算环境

所以，你已经安装了Python和科学计算堆栈并准备好了。但为什么？

在进一步研究之前，了解科学计算堆栈是什么，最重要和最重要的组件是什么，以及如何在机器学习环境中使用它们是一个好主意。

来自Dataquest的这篇文章，恰如其分地命名为Jupyter Notebook for Beginners：A Tutorial，深入探讨了我们使用Jupyter笔记本的原因，并介绍了您将在此路径中遇到的一些最重要的Python库，即Pandas，Numpy和Matplotlib。

本教程不涉及Scikit-learn，它是Python生态系统中实际机器学习过程的主要引擎之一，它包含许多算法的实现，供您在自己的项目中实现。然而，直接来自Scikit-learn的维护者的介绍性文章Scikit-learn的机器学习介绍将在5分钟内概述其基础知识。

作为一个留给读者的练习，我建议找到并熟悉Pandas，Numpy，Matplotlib和Scikit-learn的文档内容，并保持链接方便作为前进的参考。无论如何，请确保您熟悉这4种工具的基础知识，因为它们在基本的Python机器学习中得到了很好的应用。

3.分类

分类是监督学习的主要方法之一，并且执行预测的方式涉及具有类标签的数据。分类涉及找到描述数据类的模型，然后可以使用该模型对未知数据的实例进行分类。培训数据与测试数据的概念对于分类是至关重要的。用于模型构建的流行分类算法和呈现分类器模型的方式包括（但不限于）决策树，逻辑回归，支持向量机和神经网络。

首先，观看麻省理工学院教授John Guttag关于分类的讲座。

然后看看下面的教程，每个教程都涵盖了一个基本的机器学习分类算法（多么令人兴奋，你的第一个机器学习算法！）。

Susan Li详细介绍了如何逐步实现最基本的分类器，逻辑回归，以及在Python中构建Logistic回归。

完成Susan教程后，请遵循Russell Brown的简明创建和可视化决策树与Python。

作为奖励，由于我们也在学习如何同时使用Jupyter笔记本，请看看Dafni Sidiropoulou Velidou 使用Jupyter Widgets进行决策树的交互式可视化，以获得使用Jupyter笔记本进行可视化的一些好处。并调整你的模型。

4.回归

回归类似于分类，因为它是监督学习的另一种主要形式，并且对预测分析有用。它们的不同之处在于，分类用于预测具有不同有限类的数据，而回归用于预测连续数值数据。作为监督学习的一种形式，训练/测试数据也是回归中的一个重要概念。

首先，观看CMU教授Tom Mitchell关于回归的讲座。

然后看看Adi Bronshtein的教程，题为“ Python中的简单和多元线性回归”。

5.聚类

聚类用于分析不包括预先标记的类的数据。使用最大化类内相似性和最小化不同类之间的相似性的概念将数据实例组合在一起。这转化为聚类算法识别和分组非常相似的实例，而不是彼此非常相似的未组合实例。由于聚类不需要预先标记类，因此它是一种无监督学习的形式。

首先，观看麻省理工学院的John Guttag的这个讲座。

k均值聚类可能是聚类算法中最着名的例子，但并不是唯一的聚类算法。存在不同的聚类方案，包括层次聚类，模糊聚类和密度聚类，对于质心式聚类（k-means所属的族）也采用不同的聚类方式。有关这方面的更多信息，请阅读Jake Huneycutt的Python中的聚类算法简介。然后阅读Michael J. Garbade 在机器学习中理解K-means聚类并为自己实现k -means。

然后看看Gabriel Pierobon的DBSCAN聚类数据形状k-means无法很好地处理（在Python中）实现基于密度的聚类模型。

6.更多分类

现在我们已经采样了，让我们切换回分类并检查更复杂的算法。

观看CMU的Maria Florina Balcan在本讲座视频中讨论支持向量机（SVM）。

然后阅读Aakash Tandel的支持向量机 - 简要概述，这是对SVM的高级处理。与跟进支持向量机VS Logistic回归由Georgios的兹拉科斯。

最后，通过阅读Jake VanderPlas的In-Depth：支持向量机来完善您的SVM理解，这是他强烈推荐的Python数据科学手册的摘录。

7.合奏方法

最后，让我们了解一下合奏方法。

首先观看Vrije大学的Peter Bloem的视频讲座。

然后阅读这两个主要解释性的文章：

格罗弗王子 从头开始提升梯度
随机森林简单解释，Will Koehrsen

最后，按照这些教程尝试集合方法。

Sebastian Flennerhag 介绍Python Ensembles
Alvira Swalin的CatBoost vs. Light GBM vs. XGBoost
Manish Pathak 在Python中使用XGBoost

希望您从这7个步骤中受益，掌握Python的基本机器学习。下次我们将继续讨论更多中级主题时加入我们。