数据科学概论

每年产生数万亿字节的数据，并且这个数字仍在呈指数增长。据估计，到2020年，每个人每秒将产生1.7兆字节的数据，数字数据累积将达到约44兆字节或44万亿千兆字节。下图也显示了爆炸的数据。

数据只是一种原材料，从中提取信息需要进一步的工作。我们的社会越来越依赖数据，而数据科学是可以帮助我们理解大量数据的领域。

数据科学是一个跨学科领域，它利用来自不同领域的方法和技术，例如计算机科学，数据库，数学，统计和机器学习。数据科学涉及数据的收集，准备，分析，可视化，管理和保存。这些数据通常数量非常大，涵盖了多种类型。

我们周围的数据科学实例

数据科学已被公司和其他组织广泛使用，以获取有关其客户，员工，产品和流程的见解。

例如，谷歌在其产品（例如AdSense）中使用数据科学，以个性化正在显示给正在浏览网站的用户的商业广告，这些广告基于他们所在的网站以及谷歌过去收集的有关用户的其他数据。 Uber使用数据科学来计算特定骑行的费用，向哪些骑行者打折，并测试哪种忠诚度计划最适合其驾驶员。 Airbnb（一个在线市场，将希望出租房屋的人与需要住房的人联系在一起）使用数据科学来帮助人们估计应该以其价格出租房屋的价格。对于任何以数据为中心的组织，数据都是客户的声音，而数据科学是这种声音的解释。

除商业部门外，政府和非政府组织还严重依赖数据科学来理解它们生成的大量数据。通过使用数据科学，政府可以检测欺诈和犯罪活动，优化投资和资金等等。同样，非政府组织使用数据科学通过提供可靠的证据来加强其事业。例如，世界野生动物基金会（WWF）通过使用数据科学显示有关不同野生动物和鸟类的信息来提高其筹款效率。除了这些机构之外，其他几个组织也在将数据科学用于众多任务，并且其使用只会随着时间而增加。

数据科学的机会

数据的指数增长还极大地增加了数据科学家的工作数量。 LinkedIn根据其庞大的专业人才数据库进行的分析表明，数据分析师和数据科学角色的总体增长（请参见下图）。

顺便提一下，本教程摘自Commonlounge的Data Science课程。该课程包括许多动手作业和项目。此外，免费提供80％的课程内容！如果您对学习数据科学感兴趣，那么绝对建议您进行检查。

数据科学的关键组成部分

编程（Python，R）

如前所述，数据科学处理大量数据。在数据科学中，使用计算机编程来管理和分析这些数据。在称为数据分析/业务分析的领域中研究了其他非编程方式来分析数据。

在数据科学界，以下两种编程语言是最流行的：

Python：大量的第三方软件包（例如numpy，scipy，scikitlearn，matplotlib等）的可用性使数据科学项目更易于实施，并因此引起了极大的欢迎。除此之外，PyCharm，Vim，Emacs等不同的IDE以及IPython和Jupyter等交互式python环境使使用python比其他语言更容易。

R： R是一种专门为执行各种统计和图形技术而开发的编程语言，即该编程语言是由统计学家为统计而设计和创建的。 R也具有用于数据整理，数据可视化和机器学习的不同软件包。它是一种开源语言，并且有一个活跃的统计学家和程序员社区，他们通过为新的统计方法添加新的库来不断丰富该语言。

数据（及其各种类型）

数据科学使用编程来分析数据，并且该数据可以是各种类型。下面讨论了一些重要的数据类别：

结构化数据：易于以表格形式表示的数据，并且可以在数据库和Excel文件中进行存储和操作。数据具有明确定义的数据模型。例如，Airbnb有一个可供出租的地方的数据库，该数据库包括变量，例如房屋大小（平方英尺），可容纳的客人数量，床位数，浴室数量以及每天的房屋租金，等等。

非结构化数据：不能轻松放入数据模型的数据称为非结构化数据。非结构化数据的示例包括电子邮件，PDF文件，图像，视频等。

自然语言：直接以人类用来相互交流的语言（例如英语，中文，法语等）编写的数据。自然语言数据是非结构化数据的子类型。

图像，视频，音频：图像，视频和音频广泛地由相机和麦克风等传感器产生。它们本质上是非结构化的，因此从它们中提取信息是一个很大的挑战。

基于图的数据：图是一种数学结构，用于建模两个实体之间的成对关系。它使用节点，边线和属性在其中存储信息。例如，有关Facebook朋友的信息可以用图形表示，其中人是节点，两个节点之间的边表示两个人是朋友。

机器生成的数据：机器生成的数据是由计算机，不同的应用程序或机器在没有人类参与的情况下创建的任何信息。

统计与概率

统计学：统计学是数学的一个分支，涉及数据的收集，组织，分析和解释。统计方法和技术通过编程来实现以分析数据。一些常用的概念包括均值，众数，中位数，标准差，假设检验，偏度等。

概率：概率用于数学描述事件发生的可能性。它量化了随机性和不确定性。例如，概率告诉我们在特定日子下雨的可能性，或者有人中奖的可能性。事件发生的概率始终在0到1之间，其中1表示绝对确定性，0表示完全不可能。一些常用的概念包括随机变量，不同的概率分布，条件概率，贝叶斯定理，z检验等。

与数据科学的关系：数据科学是关于处理数据以从中提取信息的全部。统计和概率构成了数据科学的数学基础。如果没有对统计数据和概率的清晰了解，很容易误解数据并得出错误的结论。

机器学习

简介：亚瑟·萨缪尔斯（Arthur Samuels）将机器学习定义为研究领域，它使计算机无需进行明确编程即可学习。机器学习时，它在其预期的未来业绩改善的方式改变其结构或程序。更改可能是由于其输入或响应外部信息而发生的。例如，当在查看对象的几张图片后训练用于对象识别的机器学习模型的性能提高时，可以说机器已经学会了识别对象。

简单来说，机器学习涉及三个目标：变更，概括和改进。

学习改变了学习者：对于机器学习，问题在于确定这些变化的性质以及如何最好地表示它们。
学习导致泛化：不仅必须在同一任务上，而且在相似任务上，性能也必须提高
学习带来改善：机器学习必须解决变更可能降低性能的可能性，并找到防止这种情况的方法。

机器学习系统执行各种任务，包括识别，诊断，计划，机器人控制，预测等。

数据科学中的机器学习：数据科学家使用机器学习算法，尤其是回归和分类方法在数据科学中很流行。当数据科学家需要从可用数据中预测不同的事物时，机器学习便会派上用场。例如，通过使用前几年购物中心的销售数据，我们可以使用线性回归等回归方法来预测未来几年的近似销售额。同样，将数据分类到已知的类中，例如根据哨声将鸟类分类，则需要机器学习算法，例如逻辑回归，决策树等。

大数据

简介：当一组数据变得如此庞大或足够复杂，以致于无法使用传统的数据管理方法来处理它时，我们将转向大数据。通常，存储或处理此数据需要大量计算机（小型公司从10s到大型公司成千上万）。大数据的特征在于三个优势：

数量：大数据量很大：范围可以从TB到ZB。
多样性 ：大数据本质上是多种多样的。它可以具有不同的格式和类型。大多数公司混合使用结构化和非结构化数据。
速度：持续不断地生成大量数据。例如，此数据来自与网站进行交互的用户或可能不断收集数据的传感器。

大数据和数据科学：大数据的出现提高了数据科学的重要性。通常，数据被认为是原油-一种原材料，通过应用数据科学，我们可以提取各种信息，例如从原油中提取精制油。数据科学家根据需要使用不同的工具来处理诸如Hadoop，Spark，R，Pig，Java等大数据。随着我们的技术和社会变得越来越受数据驱动，大数据和数据科学将变得更加复杂。

参考文献

Davy Cielen介绍数据科学
约翰·霍普金斯大学的数据科学专业| Coursera

由Bishal Lakha和Keshav Dhandhania合着。

最初作为教程发布在 www.commonlounge.com上， 作为 数据科学课程的一部分 。

From: https://hackernoon.com/a-gentle-introduction-to-data-science-1d8193a3cfcb