学习笔记 Data Science for Business 第二章

商业领域的问题以及数据科学之对策

1. 从商业问题到数据挖掘任务

任何一个“由数据驱动的”商业决策问题，尽管都有其行业或者应用的独特性，但是解决这个问题的办法却依赖于若干个基本的数据挖掘任务。这些任务列举如下：

分类以及类的概率预测（classification & class probability estimation）
回归（regression）
相似性匹配（similarity matching）
聚类（clustering）
并存分组（co-occurrence grouping）
概述（profiling）
联系预测（link prediction）
数据简化（data reduction）
因果模型（causal modelling）

2. 监督式和非监督式方法

监督式和非监督这两个术语，来自于机器学习领域。这是一种比喻：老师利用一系列的例子（samples），通过提供“目标信息（target information）”，从而“监督”学习者。比如，老师通过提供大量的练习题（samples），并且提供正确的答案（target information），来训练考生的答题能力。非监督学习任务，尽管有可能是同样地提供大量的练习题（samples），但是并没有给出正确的答案给考生，也就是说考生并不知道这些练习题的答案，他们要自己去判断在这些练习题（samples）中是否存在着某种共同的东西。

上一节中提到的“分类”及“回归”数据挖掘任务属于典型的监督式任务；“聚类”则属于典型的非监督式任务。

“分类”和“回归”数据挖掘任务通过“目标”的类型就可以明显区分开来。“回归”任务需要给出一个“数值目标”（numerical target），而“分类”任务给出的只是一个“类型值目标”（categorical target）。举例如下：

“在提供促销优惠I的情况下，这个客户是否会购买服务S1？”- 这是一个“分类”问题，因为它的目标是一个类型值（买，或者不买）。

“在提供促销优惠I的情况下，客户会购买哪个服务（S1, S2, 或者都不买）？”- 这依然是一个“分类”问题，只不过目标变成了三个具体的选项。

“这个客户会在这项服务上花多少钱？”- 这是一个回归问题，因为它的目标是一个“数据值”（numerical target）。它的目标变量是每个客户所花费的金额。

3. 数据挖掘及其结果

学习笔记 Data Science for Business 第二章

“数据挖掘”（data mining）是为了找到一个模式（pattern）或者建立一个模型（model）。数据挖掘的结果就是模型。

以电信公司MegaTelCo为例，客户流失（customer churn problem）一直困扰着MegaTelCo的管理层。这个问题就是：即将在两年合约期到期的客户当中，哪些是最有可能会不再续签合约的客户呢？”。MegaTelCo公司请来数据挖掘专家建立一个预测模型，通过这个模型来解答上述问题。上图的上半部分是“数据挖掘”，最终得到的是一个预测模型。上图的下半部分，则是“数据挖掘”的应用，即针对现存的客户，通过这个模型来预测他/她是会续签合约，还是会终止MegaTelCo的服务（客户流失）。

4. 数据挖掘的过程

数据挖掘尽管包括了大量的科学及技术，它也是一门手艺，或者说艺术。而手艺或者艺术是需要不断实践、锤炼、精进、改善和提高的。这更像是工匠的不断磨练。CRISP-DM建立了一个数据挖掘的过程图。

学习笔记 Data Science for Business 第二章

这种图表明，数据挖掘过程是一个反复循环的优化过程。文章接着讲解了上图中每一个方框内对应的具体内涵。

商业问题的理解
数据的理解
数据的准备
建模
评估
实施

5. “管理数据科学团队”意味着什么

咋一看，很多人会把数据挖掘看作是软件开发。然而这是一个错误的观点。数据挖掘更像是一种包含了科研任务在内的“探索性”的事业。从CRISP-DM的数据挖掘过程图就可以看出这一点。它在“方法”和“策略”上不断反复推敲的过程使得它与“软件开发”大相径庭。软件工程中，最重要的是开发出高质量，高效率的代码。而数据挖掘工作中，最重要的是能够深刻理解问题之所在，提出符合逻辑的解决方案，试验性的测试手段等。这与软件工程的要求是十分不同的。

6. 其他分析技巧与技术

商业问题的解决可以采用很多不同的方法，本书并不打算拓展到所有的方法。但是这里依然值得简单列举一下其他的分析技巧和技术。

统计学
数据库查询
数据建仓
回归分析
机器学习及数据挖掘
利用以上这些技巧来解答商业问题