深入浅出数据分析

1. 数据分析引言

::数据分析的目的:: 如何处理所有的数据材料，如何将原始数据转变成推进现实工作的妙策，如何分解和构建复杂的问题和数据集，进而牢牢把握工作中的各种问题的要害。

数据分析就是仔细的推敲证据

确定问题

把问题和数据分解为更小的组块

你需要将问题划分为可管理、可解决的组块。

分解问题

需要精确答案的量化之，你必须自己提炼重要的因子。

找到感兴趣的比较对象，分解汇总数据

再次你可能需要知道公司的业务是如何展开的。

评估组块

*评估分解组块的关键就是比较* 分析的意思是作出自己的明确假设，并以此为基础为客户提供决策依据。你对外籍的假设和你确信的观点就是你的心智模型。

心智模型

统计模型取决于心智模型

心智模型应当包括你不了解的因素。心智模型可以帮助填补信息空白，目的就是为了发现盲点。

应当对心智模型进行试验

判断心智模型的正确性同样重要，一个方法就是对心智模型进行试验。错误的心智模型会得出错误的答案以及错误的市场策略。

原始数据

所获得的新数据若未经过任何处理，即称为原始数据，为了让他人提供的数据在你要进行的数据运算中发挥作用，几乎总是要调节数据。千万要保存原始数据，避免进行任何数据处理。即使是最好的数据分析师也会失误，必须能够将自己的工作结果与原始数据进行比较。

深入挖掘数据

数据挖掘的程度取决于你对领域的了解程度，且制定的市场策略具有说服力。

2. 实验

检验你的理论

比较法是破解观察数据的法宝，比较的数据越多，分析结果的正确性越高。除了“咖啡价值”，所有的变量都在有限的范围内波动。例如“咖啡温度”，最高得分4.9，最低得分4.7，波动不大。相反，“咖啡价值”则降幅巨大。12月得分是8月得分的一半，这是一个巨大的变化。由于经济衰退，人们手头的钱少了，于是他们发现星巴仕咖啡并无出色的价值。

价值感是导致销售下滑的原因吗？

但目前只有感知价值数据与销量的下降相吻合。

会不会正好相反呢？可能正是销量下降让人们认为咖啡没有什么价值。

分析师们的一个很好的经验法则是，**当你开始怀疑因果关系的走向时（如价值感的下降导致销量下降），请进行反方向思考（如销量下降导致价值感下降）**，看看结果怎么样。

观察分析充满混杂因素

观察分析具有很大的局限性，当中会存在很多的混杂因素。混杂因素就是研究对象的个人差异，它们不是你试图进行比较的因素，最终会导致分析结果的敏感度变差。

如何发现和控制混杂因素

混杂因素的控制应当做到何种程度

重点在于分析结论要有意义。而且你已经彻头彻尾的超找过混杂因素了。

拆分数据块，管理混杂因素

如何控制混在因素？

为了控制观察研究混杂因素，有时候，将数据拆分为更小的数据块是个好想法。这些小数据块更具同质性。将数据按照混在因素进行分类，在同一类中，混杂因素的干扰将会最大限度的降低，一次来观察其他关键信息。

实验那种策略最有效（A/B 测试）

如何制定实验策略

好的实验总是有一个控制组（对照组），使分析师能够将检验情况与现状进行比较。控制组一组体现现状的处理对象，未经过任何新的处理（也称对照组）。没有控制组就意味着没有比较，没有比较就意味着无法对所发生的情况进行判断。

如何制定控制组？

历史控制法通常偏向于你力图进行检验的对象的成功方面，因为很难选出和你所测试的组真正相似的控制组。总体上说，你应该对历史控制法表示怀疑。

量化实验策略的效果

如何知道最终的效果是否满足预期？

实验也要注意混杂因素

随机控制是各种实验的黄金标准。没有它你也能做实验，但要是有了它，你就能做得最好。随机控制实验能让你最大限度地接近数据分析的核心：证明因果关系。

3. 最优化

考虑事项被称为约束条件，因为它们将决定问题的有关参数。你最终追求的无非是利润。

决策变量是你能控制的因素

决策变量却是你能控制的因素。你可以选择生产多少只橡皮鸭，多少条橡皮鱼

最优化问题都有约束条件和目标函数

为了解决一个最优化问题，你需要将决策变量、约束条件及希望最大化的目标合并成一个目标函数。通过将每个决策变量乘以一个约束条件，就能算出可能实现的最大值“P”（利润）

如何发现约束条件？

着手考虑这些约束条件的最好途径是想象一些假定的产品组合。让我们从**时间约束条件**开始。

Excel 辅助工具

Microsoft Excel 和 OpenOffice 都有称手而小巧的函数插件，英文叫做 Solver，中文叫做求解器，可以麻利地解决最优化问题。

建模的重要性

你的目标应该是尽量创建最有用的模型，让模型的不完美相对于分析目标变得无足轻重。

如何正确的建模？

按照分析目标校正假设。你要不停地追问自己：规定的假设条件应该详尽到什么程度？这由分析的重要性来决定。最优化思维方法的最终目的是得出自己希望实现的目标，然后小心地鉴别会影响实现这个目标的约束条件。通常，约束条件能够以定量方式来表现，于是Solver之类的算法软件就能发挥作用了。

提防负相关变量

不要假定两种变量是不相关的。创建模型时，务必要规定假设中的各种变量的相互关系。

正如概念模型设计中，尽可能多的联想出概念之间的关系。但似乎这样也会讲问题复杂化。

*你的假设立足于不断变化的实际情况*

案例

我们想尽量提高利润，为此必须确保橡皮鸭和橡皮鱼的产量都正合适。我们需要您帮忙找出理想的产品组合：这两种产品我们各应该生产多少？以Y轴表示橡皮鸭，以X轴表示橡皮鱼，这样就能很方便地看出哪种产品组合是可行的。实际上，产品组合所在的由约束线围成的空间被称为可行区域。在增加约束条件之前，比如，你本来能生产400只橡皮鸭和300条橡皮鱼。但现在，由于橡胶短缺，这种产品组合不再可能实现。你需要增加一个新约束条件，用于估计某个月的橡皮鸭和橡皮鱼的需求量。

4. 数据图形化

为什么要使用数据图形化

清晰的体现数据，帮助制定决策

有助于思考问题的原因

体现数据

创建优秀数据图形的第一要务就是促使客户谨慎思考并制定正确决策，优秀的数据分析由始至终都离不开「用数据思考」。 *数据图形化的目的在于正确比较*

使用散点图探索原因

分析师喜欢用散点图发现因果关系，即一个变量影响另一个变量的关系。通常用散点图的X轴代表自变量（我们假想为原因的变量），用Y轴代表应变量（我们假想为结果的变量）。

优秀的图形是多元图形

如果一个图形能对三个以上变量进行比较，这张图形就是多元图形，再加上有效的比较是数据分析的基础，于是尽量让图形多元化最有可能促成最有效的比较。

同时展示多张图形，体现更多变量

创建图形的工具

R 语言，延伸阅读：Edward Tufte 的书籍 Books

数据与实验

数据只能说明结果与假设相吻合，但不能够证明假设是否成立。

5. 假设检验

假设检验的方法

伪证法是有效的非直觉方法。

建模

变量之间可以正相关，也可以负相关。我们将这些正相关和负相关变量关系编织成一个模型。

正负相关的关系恰好就是概念模型中的关系，所以这里的模型与概念模型非常类似。

*现实世界中的各种原因呈网络关系，而非线性关系*

假设检验的核心是伪证

请勿试图选出最合理的假设，**只需剔除无法证实的假设**——这就是假设检验的基础：证伪。诊断性是证据所具有的一种功能，能够帮助你评估所考虑的假设的相对似然。如果证据具有诊断性，就能帮助你对假设排序。进行假设检验时，重点是要识别和找出诊断证据，非诊断证据不会给你带来任何进展。

无法剔除所有假设，但可以判定哪个假设最强

6. 贝叶斯统计

在有条件的前提下如何计算概率？

必须确保每一个分析过程都充分利用所搜集到的与问题有关的数据。贝叶斯 Bayes Theorem 规则，这个规则能帮助你利用基础概率和波动数据做到明察秋毫。

案例

蜥蜴流感诊断试验，正确性分析报告若某人已患蜥蜴流感：试验结果为阳性的概率为90%。若某人未患蜥蜴流感：试验结果为阳性的概率为9%。 **条件概率**即以一件事的发生为前提的另一件事的发生概率。

7. 主观概率

如何统一人们彼此不统一的数据？

如果用一个数字形式的概率来表示自己对某事的确认程度，所用的就是主观概率。主观概率是根据规律进行分析的巧妙方法，尤其是在预测孤立事件却缺乏从前在相同条件下发生过的事件的可靠数据的情况下。

如何让概率用词更精确？

使用量化的主观概率来精确的描述概率。使用标准偏差、标准偏差量度的是典型的分析点与数据集平均值的差距。 R 的程序画的散点图，里面有一个函数 dotchart。

贝叶斯规则是修正主观概率的好办法

8. 启发法

如何评估难以量化的数据？

启发法

心理学定义，用一种更便于理解的属性代替一种难解的、令人困惑的属性。
计算机科学定义，一种解决问题的方法，可能会得出正确答案，但不保证得出最优化答案。

这种描述启发法的图形被称为快省树，快是指完成这个过程费时不多，省是指不需要大量认知资源。要是你想说服这家伙相信你的启发式评估设想行之有效，就得理解他的推理方式。

从客户的角度去理解推理方式

9. 直方图

直方图都能显示出数据点在数值范围内的分布情况。这种小巧而实用的图形量度数据的分布、差异、集中趋势等。直方图上的缺口意味着区间与区间之间没有数据。

10. 回归

散点图比较两种变量

散点图是另一种用于展现数据的快捷、经典的办法，它显示的是数据分布情况。但和直方图不同的是，散点图显示两种变量。散点图显示出观察结果的成对关系，一张好的散点图可以是原因说明的一个组成部分。

使用平均值图形预测每个区间内的数值

平均值图是一种散点图，这种散点图显示出与X轴上的每个区间相对应的Y轴数值。

回归线对于具有线性相关特点的数据很有用

**相关性**即两种变量之间的线性关系，如果要呈现线性关系，散点图上的点就需要大致沿着直线分布。 R 的范围为 -1 至 1，0 表示无相关性，1 和 -1 表示两个变量完全相关。

利用线性方程可以对直线进行数学描述

11. 误差

如何对数据范围外的情况进行预测

基本上有两种可能的答复：一是无可奉告；二是提出一个假设，据此进行预测。机会误差 = 实际结果与模型预测结果之间的偏差。在统计学中，机会误差又称为残差，对残差的分析是优秀的统计模型的核心。预测总是与机会误差同在，你可能永远也想不通自己的数据中为什么会出现机会误差。

如何定量的指出误差

作为一种量度方式，相对于回归线的机会误差（或者称为均方根误差）的分布与相对于平均值的标准偏差具有相同的用途。有了回归线的均方根误差值，就能告诉客户实际结果与典型预测结果之间可能有多大差距。

如何管理误差

将数据拆分为几组称为分割。分割的根本是管理误差。

优秀的回归分析兼具解释功能和预测功能

12. 相关数据库

13. 整理数据

所谓的数据整理，就是对不整齐，格式不规范的数据进行整理，例如客户的姓名、Email 和电话号码的不规范，需要按照某种格式化的方式来进行展示。所使用的工具：

Excel 中的 SUBSTITUTE 函数

Excel 中的 CONCATEENATE 函数

R 语言使用正则表达式来处理复杂的规则

R 语言的 unique 函数来去重

附录

3. 耶鲁大学教授Edward Tufte （爱德华·塔夫特）的图形原则

“体现出比较、对比、差异。” “体现出因果关系、机制、理由、系统结构。” “体现出多元数据，即体现出1个或2个变量。” “将文字、数字、图片、图形全面结合起来。” “充分描述证据。” “数据分析报告的成败在于报告内容的质量、相关性和整体性。” —Edward Tufte，《出色的证据》（Beautiful Evidence）其著作《公共政策数据分析》（Data Analysis for Public Policy）可谓回归技术宝典，可在此网址免费下载：http://www.edwardtufte.com/tufte/dapp/