统计分析：从小数据到大数据

统计分析老兵多年潜心编写，业务视角的统计思维，从小数据到大数据，厘清数据分析的技术脉络，并深入解读了统计算法和机器学习。

编辑推荐

适读人群：从事社会调查分析与数据挖掘应用方向，主要适应于统计分析的初、中级应用者；本书是一名统计分析老兵多年潜心学习，深入理解统计分析的内涵和精髓，并结合自己丰富的培训经验，以及大量的一线工程实践经验编写而成，从统计调查小数据到电商实战大数据，厘清数据分析的技术脉络、算法的进化，CDA数据分析理事赵坚毅倾情作序。

内容简介

面对小数据和大数据，数据分析师应该如何收集数据信息？传统的业务框架如何与统计学相关联？测量学扮演着什么角色？建模过程有哪些预分析技术和修正技术？建模工作完成后，如何解析？如何归因？如何预测？等等，这些数据分析能力构成了本书的分析框架。

本书分为8章，小数据与大数据分析模式的动态切换贯穿全书，展示了数据分析案例的模块化分析思路。第1～3章为数据预分析部分，强调业务问题与统计问题的衔接；第4～6章为统计建模阶段，其中附有对行业案例和业务敏感度的训练、对统计和业务整合的审美建议，进而构造出一套具有灵活调校的数据分析模式。第7～8章解决的问题是，如何将晦涩难懂的统计解释转换成业务解释。

由衷地希望本书能够成为数据运营人员与初中级数据分析师分析数据的行动指南。

作者简介

丁亚军

职业者，兼CDA数据科学研究院研究员、电子工业出版社大数据专家委员会成员、学习路径图国际技术中心顾问、经管之家培训中心讲师。

研究方向：统计软件与数据分析、市场调查研究、电商CRM数据挖掘、银行申请与行为评分卡。

前言/序言

序言：数据是通往智能化的阶梯

早在1996 年，尼葛洛庞帝在其出版的《数字化生存》一书中就指出：人类生存在一个虚拟的、数字化的空间，人们在这个空间里应用数字技术（信息技术）进行信息传播、交流、学习、工作等活动，这便是数字化生存。2010 年2 月，肯尼斯?库克尔在《经济学人》上发表了一篇长达14 页的大数据专题报告——《数据，无所不在的数据》，该报告中写道，“世界上有着无法想象的巨量数字信息，它们以极快的速度增长……从经济界到科学界，从政府部门到艺术领域，很多地方都已受到这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇——‘大数据’”。库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。2018 年，人工智能风起云涌，苹果手机装上了AI 芯片，百度无人驾驶汽车开进了北京海淀公园。展望未来，AI 不仅将走入寻常百姓家，还将成为与生命科学并肩的技术。它一方面使机器更像人；另一方面使人更像机器（基于基因和量子科技等技术，使现代医学更好地了解人类）。

数据分析（或数据挖掘）算法作为AI 这一未来革命性趋势的重要引擎，是近期AI 能成功的第一重要因素。深度学习是数据分析算法的一个分支，它的出现类似于医学史上出现的青霉素，青霉素使西医掌握了一项重要的“武器”。要掌握AI 这项“武器”，我们就必须从最基础的数据知识开始学习，丁亚军老师的《统计分析：从小数据到大数据》一书是给零基础的朋友提供的一本严谨又不失趣味的教材，通过这本书，我们可以领略到数据的魅力！

作为CDA 数据分析师品牌的首席讲师，丁亚军老师一直致力于把自己在电商大数据、统计调查小数据的实战心得传授给学员。

这些年来，CDA 数据分析师的企业客户名单中增添了不少重量级的客户：银行，如中国工商银行、中国银行、招商银行、中国邮政储蓄银行、渣打银行、北京银行等；三大电信运营商，即中国电信、中国联通、中国移动；知名车企，如奔驰、宝马；跨国企业，如IBM、麦当劳等。数据分析师在美国是一个常设岗位，但在中国才刚刚开始设立。

本书经过CDA 和电子工业出版社审核，将其归入“CDA 数据分析师系列丛书”。对于希望加入数据分析师行业的读者来讲，本书是一本靠谱的、有趣味的商业数据分析读物。

CDA 数据分析师理事赵坚毅

前言

统计分析是基于大数据的商业智能分析、机器学习等多项技术的基础，同样也是训练大数据思维的理论基础。

每种技术既有优点，又有缺点。为了弥补传统统计方法的不足，人们引入了数据挖掘算法。不管是算法、应用，还是数据探索，基于不同的方法体系都将产生不同的方法论，本书以此为基础，探讨小数据和大数据的核心区别，以及由大数据引起的算法“进化”。

内容特色定位

本书内容具有如下几个重要的特征。

? 从运营报告开始了解业务环境，进而建立业务视角的统计思维，如将业务问题转化为统计问题、数据项目落地、共享模型价值等。

? 通过强调应用统计和理论统计的区别和联系，进一步讲解应用统计工作者应该如何梳理业务关系、学习统计模型等。

? 从小数据到大数据，厘清了数据分析的技术脉络，包括：模型预分析和修正；算法的“进化”，从1.0 到4.0；统计算法和机器学习的深入解读。

? 案例学习模块化和流程化。其中，模块化表现为统计的家族特征，如每种模型在家族中有什么表现、继承了什么样的算法优势；流程化表现为从小数据到大数据的算法，对应不同需求而设计的分析流程。

? 本书试图搭建统计与机器学习间的基础理论桥梁，使读者了解算法的“进化”过程，从而掌握每次进阶学习的核心信息，跨越进阶障碍。

读者定位

鉴于对统计算法和大数据算法的探讨，本书比较适合如下几类人群阅读。

（1）经常与数据运营或运营报告接触的业务人员。

本书能够帮助业务人员理解数据特征，看懂运营报告，掌握常见的数据可视化工具，使用数据语言进行业务沟通和交流，并能够提高业务人员的数据化思维，使其尽快成长为业务能手。数据运营人员和数据管理人员经常与数据打交道，他们需要知道如何将数据转化成商业价值——量化需求、寻找影响因素、工具归因、数据可视化。

（2）数据分析入门者或想转行成为数据分析师的读者。

初学者最重要的是训练统计思维，这需要初学者搭建业务框架、训练角色意识、提高审查数据的量化标准、识别数据行列模式、学习应用统计、了解统计的商业价值评估、熟悉统计解释等。本书站在初学者的视角，立体地呈现出这些必要的知识，并以案例和固定操作流程的方式展现给大家，尽量使专业的知识简易化。

（3）机器学习从业者或机器学习初学者。

大数据的温床孕育了机器学习等人工智能算法，这是大数据模式下的全新技术。小数据与大数据产生于不同的应用环境，所以小数据和大数据的算法区别是：对数据是总体分析还是个体分析、数据信息的分布是宏观的还是微观的，等等。两类算法各有千秋，甚是不同。

学习建议

建议读者将第1 章和第2 章涉及的业务思维的讨论按顺序读完。

关于第3 章，数理统计基础偏弱的读者可以直接越过与数理统计有关的内容，这样做并不影响对第3 章内容的理解。建议阅读完第3 章后直接阅读第7 章和第8 章，这样可以更好地理解全书内容，并可以完善读者对数据分析流程的学习。数理统计基础较好的读者，按顺序阅读本书即可，无须跳转。

第4 章线性回归与统计家族作为读者学习的重点，建议读者在阅读的同时跟着案例和流程进行操作。此外，建议学习第5 章Logistic 回归与统计家族时，将其中的知识点与第4 章的知识点对应起来，并回答两个问题：线性回归如何解读？线性回归如何应用？

第6 章降维技术中的主成分回归是重点内容，通过学习本章内容，读者可以体验多变量技术的案例应用及其业务、统计和可视化的整合过程。

针对本书行文内容有以下几点补充说明：

? 本书侧重于商业案例的应用，为了便于初学者理解，可能有些词汇具有个人习惯倾向，并不一定严格符合科学术语。

? SPSS 中文版有诸多翻译不足之处，但为了迎合读者的语言习惯，本书仍使用中文版对应的翻译，但会有相应注解。

? 本书涉及从小数据到大数据的方法论，为了行文方便并遵循习惯叫法，正文涉及的大数据模型称为数据挖掘模型，小数据模型称为统计模型。

致谢

本书成稿历时3 年有余，其间反复修改，甚至有停下来的想法，不过最终还是在数百个寂静的清晨后完成了书籍撰稿，在此期间不断激励我的是我的父亲，从构思到撰写，他都给予我极大的鼓励，在此表示感谢。在生活中，妻子和岳母对家庭及小宝的悉心照料，使我能够如约完稿，在此对她们表示感谢。

此外，感谢亲友丁凤萍、丁敏、徐强、丁飞等对我的支持和鼓励。

感谢赵坚毅老师，不辞辛苦提供指导意见，并为本书作序。

本书在修改过程中，尤其感谢电子工业出版社的张慧敏老师及其同事的悉心指导。

本书部分内容受到在演讲和主题研讨时学员提问的启发。因此，感谢学员对本书的期待和贡献。最后，因本人学识浅陋，行文内容难免存在不足之处，望读者不吝赐教。

说明

书中部分插图由于为软件生成图，所以图中变量显示为正体。

暂无评论

暂无评论...