商业领域的问题以及数据科学之对策
1. 从商业问题到数据挖掘任务
任何一个“由数据驱动的”商业决策问题,尽管都有其行业或者应用的独特性,但是解决这个问题的办法却依赖于若干个基本的数据挖掘任务。这些任务列举如下:
- 分类以及类的概率预测(classification & class probability estimation)
- 回归(regression)
- 相似性匹配(similarity matching)
- 聚类(clustering)
- 并存分组(co-occurrence grouping)
- 概述(profiling)
- 联系预测(link prediction)
- 数据简化(data reduction)
- 因果模型(causal modelling)
2. 监督式和非监督式方法
监督式和非监督这两个术语,来自于机器学习领域。这是一种比喻:老师利用一系列的例子(samples),通过提供“目标信息(target information)”,从而“监督”学习者。比如,老师通过提供大量的练习题(samples),并且提供正确的答案(target information),来训练考生的答题能力。非监督学习任务,尽管有可能是同样地提供大量的练习题(samples),但是并没有给出正确的答案给考生,也就是说考生并不知道这些练习题的答案,他们要自己去判断在这些练习题(samples)中是否存在着某种共同的东西。
上一节中提到的“分类”及“回归”数据挖掘任务属于典型的监督式任务;“聚类”则属于典型的非监督式任务。
“分类”和“回归”数据挖掘任务通过“目标”的类型就可以明显区分开来。“回归”任务需要给出一个“数值目标”(numerical target),而“分类”任务给出的只是一个“类型值目标”(categorical target)。举例如下:
“在提供促销优惠I的情况下,这个客户是否会购买服务S1?”- 这是一个“分类”问题,因为它的目标是一个类型值(买,或者不买)。
“在提供促销优惠I的情况下,客户会购买哪个服务(S1, S2, 或者都不买)?”- 这依然是一个“分类”问题,只不过目标变成了三个具体的选项。
“这个客户会在这项服务上花多少钱?”- 这是一个回归问题,因为它的目标是一个“数据值”(numerical target)。它的目标变量是每个客户所花费的金额。
3. 数据挖掘及其结果
“数据挖掘”(data mining)是为了找到一个模式(pattern)或者建立一个模型(model)。数据挖掘的结果就是模型。
以电信公司MegaTelCo为例,客户流失(customer churn problem)一直困扰着MegaTelCo的管理层。这个问题就是:即将在两年合约期到期的客户当中,哪些是最有可能会不再续签合约的客户呢?”。MegaTelCo公司请来数据挖掘专家建立一个预测模型,通过这个模型来解答上述问题。上图的上半部分是“数据挖掘”,最终得到的是一个预测模型。上图的下半部分,则是“数据挖掘”的应用,即针对现存的客户,通过这个模型来预测他/她是会续签合约,还是会终止MegaTelCo的服务(客户流失)。
4. 数据挖掘的过程
数据挖掘尽管包括了大量的科学及技术,它也是一门手艺,或者说艺术。而手艺或者艺术是需要不断实践、锤炼、精进、改善和提高的。这更像是工匠的不断磨练。CRISP-DM建立了一个数据挖掘的过程图。
这种图表明,数据挖掘过程是一个反复循环的优化过程。文章接着讲解了上图中每一个方框内对应的具体内涵。
- 商业问题的理解
- 数据的理解
- 数据的准备
- 建模
- 评估
- 实施
5. “管理数据科学团队”意味着什么
咋一看,很多人会把数据挖掘看作是软件开发。然而这是一个错误的观点。数据挖掘更像是一种包含了科研任务在内的“探索性”的事业。从CRISP-DM的数据挖掘过程图就可以看出这一点。它在“方法”和“策略”上不断反复推敲的过程使得它与“软件开发”大相径庭。软件工程中,最重要的是开发出高质量,高效率的代码。而数据挖掘工作中,最重要的是能够深刻理解问题之所在,提出符合逻辑的解决方案,试验性的测试手段等。这与软件工程的要求是十分不同的。
6. 其他分析技巧与技术
商业问题的解决可以采用很多不同的方法,本书并不打算拓展到所有的方法。但是这里依然值得简单列举一下其他的分析技巧和技术。
- 统计学
- 数据库查询
- 数据建仓
- 回归分析
- 机器学习及数据挖掘
- 利用以上这些技巧来解答商业问题