自助广告
立即入驻
大数据书籍 Big data books

统计分析:从小数据到大数据

统计分析老兵多年潜心编写,业务视角的统计思维,从小数据到大数据,厘清数据分析的技术脉络,并深入解读了统计算法和机器学习

统计分析老兵多年潜心编写,业务视角的统计思维,从小数据到大数据,厘清数据分析的技术脉络,并深入解读了统计算法和机器学习。

编辑推荐

适读人群 :从事社会调查分析与数据挖掘应用方向,主要适应于统计分析的初、中级应用者;本书是一名统计分析老兵多年潜心学习,深入理解统计分析的内涵和精髓,并结合自己丰富的培训经验,以及大量的一线工程实践经验编写而成,从统计调查小数据到电商实战大数据, 厘清数据分析的技术脉络、算法的进化,CDA数据分析理事赵坚毅倾情作序。

内容简介

面对小数据和大数据,数据分析师应该如何收集数据信息?传统的业务框架如何与统计学相关联?测量学扮演着什么角色?建模过程有哪些预分析技术和修正技术?建模工作完成后,如何解析?如何归因?如何预测?等等,这些数据分析能力构成了本书的分析框架。

本书分为8章,小数据与大数据分析模式的动态切换贯穿全书,展示了数据分析案例的模块化分析思路。第1~3章为数据预分析部分,强调业务问题与统计问题的衔接;第4~6章为统计建模阶段,其中附有对行业案例和业务敏感度的训练、对统计和业务整合的审美建议,进而构造出一套具有灵活调校的数据分析模式。第7~8章解决的问题是,如何将晦涩难懂的统计解释转换成业务解释。

由衷地希望本书能够成为数据运营人员与初中级数据分析师分析数据的行动指南。

作者简介

丁亚军

职业者,兼CDA数据科学研究院研究员、电子工业出版社大数据专家委员会成员、学习路径图国际技术中心顾问、经管之家培训中心讲师。

研究方向:统计软件与数据分析、市场调查研究、电商CRM数据挖掘、银行申请与行为评分卡。

目录

 

目录

第1 部分 数据分析准备

第1 章 从业务到统计

1.1 业务需求从哪来 / 002

1.1.1 学习业务的最快途径:阅读运营报告 / 002

1.1.2 当务之急:研究痛点 / 004

1.1.3 数据分析之锚:未来战略方向 / 005

1.1.4 对数据分析“小白”的有益建议 / 005

1.2 从小数据到大数据:数据体量与信息分布 / 008

1.2.1 实验室:理论验证 / 009

1.2.2 问卷:理论验证+ 探索 / 011

1.2.3 数据库:业务验证+ 探索 / 012

1.2.4 数据信息与统计模型 / 013

1.2.5 算法应用:是否跨界 / 015

1.2.6 算法特征:角色 / 016

1.3 数据分析流程的启示 / 019

1.3.1 假设:验证与归因 / 021

1.3.2 小概率:黑天鹅的不确定 / 025

1.3.3 抽样技术:经济是根本 / 026

1.3.4 选择模型:方法论 / 028

1.3.5 显著性判断:可证伪 / 029

 

第2 章 变量角色与描述

2.1 如何描述变量 / 032

2.1.1 分类变量与连续变量的分界线 / 032

2.1.2 分类变量及可视化 / 033

2.1.3 连续变量及可视化 / 037

2.2 因变量的测量 / 040

2.2.1 测量级别问题 / 040

2.2.2 是否存在测量误差 / 045

2.2.3 谁会成为“主角” / 047

2.2.4 y 的量化场景 / 050

2.3 自变量的选择 / 053

2.3.1 验证性:x 的选择 / 054

2.3.2 探索性:x 的选择 / 054

 

第3 章 数据预分析

3.1 填补缺失 / 056

3.1.1 描述缺失数据:行、列、单元格 / 056

3.1.2 缺失类型:随机性 / 060

3.1.3 小数据填补方案:精确性探讨 / 061

3.1.4 大数据填补方案:速度问题探讨 / 068

3.2 处理异常值 / 069

3.2.1 单变量与双变量异常 / 069

3.2.2 无监督异常:聚类分析 / 070

3.2.3 监督异常:回归残差分析 / 073

3.2.4 小数据与大数据如何看待异常值 / 076

3.3 消除共线性 / 080

3.3.1 共线性及其危害 / 081

3.3.2 小数据的方案:岭回归 / 082

3.3.3 大数据方案:项目合并与逐步回归 / 084

3.4 内生性问题 / 088

3.4.1 内生性及其危害 / 088

3.4.2 问题核心:特征选择 / 089

3.4.3 三驾马车之一:数据库的应对策略 / 094

3.5 变量变换技术 / 102

3.5.1 正态分布变换:对数变换 / 102

3.5.2 从0 到1:老板最喜欢的符号% / 104

3.5.3 强异常值:秩的应用 / 105

3.5.4 量纲:标准化变换 / 106

3.6 编码技术 / 107

3.6.1 为什么需要分箱化 / 107

3.6.2 分箱技术要义:数据拐点 / 111

3.7 避免过拟合 / 113

3.7.1 导致过拟合:行列问题 / 113

3.7.2 小数据为什么不谈过拟合 / 114

3.7.3 避免过拟合:方法学 / 115

 

第2部分 构建模型与修正技术

第4 章 线性回归与统计家族

4.1 差异性问题:方差分析 / 121

4.1.1 差异的来源:主效应 / 121

4.1.2 差异的来源:交互效应 / 128

4.1.3 交互性解释:交互效应图制作 / 129

4.2 结构性问题:回归分析 / 131

4.2.1 回归分析流程 / 131

4.2.2 相关的风向标作用:文氏图 / 135

4.2.3 偏相关的归因:中介和调节 / 137

4.2.4 回归系数解释:偏回归图 / 142

4.2.5 如何相信R2 / 149

4.2.6 以残差看假设 / 152

4.2.7 残差信息的有和无 / 158

4.2.8 小数据需求归纳:重结构轻预测 / 158

4.3 算法进化REG:小数据专家的努力 / 159

4.3.1 算法1.0:精确度+ 结构 / 160

4.3.2 算法2.0:精确度+ 结构与预测 / 163

4.3.3 算法3.0:速度+ 预测 / 164

4.3.4 算法4.0:加速度 / 167

 

第5 章 Logistic 回归与统计家族

5.1 预测性问题:Logistic 回归 / 168

5.1.1 卡方的风向标作用 / 169

5.1.2 不一样的R2:预测分类表 / 170

5.1.3 回归系数解释:or 值与rr 值 / 171

5.1.4 修正技术:是x 而不是y / 174

5.1.5 大数据需求归纳:轻结构重预测 / 177

5.2 算法进化Logistic:大数据与智能 / 178

5.2.1 算法1.0:稳定性+ 结构 / 178

5.2.2 算法2.0:稳定性+ 结构与预测 / 179

5.2.3 算法3.0:速度+ 预测 / 179

5.2.4 算法4.0:加速度 / 179

5.3 算法3.0 的榜样:神经网络 / 180

5.3.1 神经网络算法 / 180

5.3.2 DM 算法预分析 / 183

5.3.3 基于神经网络的常规应用 / 185

 

第6 章 降维技术

6.1 主成分回归与压缩技术 / 192

6.1.1 四驾马车:实验室、问卷、数据库、云 / 192

6.1.2 主成分算法:降维 / 192

6.1.3 主成分与因子:谁应该有名字? / 194

6.1.4 主成分回归:“回归+ 回归”模式 / 196

6.2 对应分析:一个市场调查案例 / 197

6.2.1 案例背景介绍 / 197

6.2.2 模型预分析 / 199

6.2.3 构建模型:“广义”双标图 / 203

6.2.4 结论及营销 / 214

 

第3部分 模型应用与评估

第7 章 回归类模型应用

7.1 结构性问题:偏回归系数 / 216

7.1.1 单结构:偏的意义 / 216

7.1.2 整体结构:条件规则 / 217

7.2 预测性问题:估计值 / 217

7.2.1 老样本预测:内衍与市场细分 / 218

7.2.2 新样本预测:外推与潜在行为 / 219

7.3 模型优劣与模型评价 / 219

7.3.1 R2 变形记 / 219

7.3.2 图示R2:R2 图与ROC 曲线 / 221

7.4 模型优劣与业务评价 / 221

7.4.1 小数据的标准:R2 / 221

7.4.2 大数据的标准:老板 / 222

 

第8 章 数据分析报告

8.1 可视化图形制作 / 223

8.1.1 条形图与折线图 / 223

8.1.2 频数与分布 / 223

8.1.3 多变箱体图 / 224

8.1.4 散点图与气泡图 / 225

8.2 图形制作与格式 / 227

8.2.1 图形制作:绘图、颜色 / 227

8.2.2 图形模板制作与调用 / 229

8.3 表格制作与格式 / 230

8.3.1 表格制作:制表、格式 / 230

8.3.2 表格模板制作与调用 / 232

8.3.3 OMS 控制面板 / 234

附录A 数据集__

前言/序言

序言:数据是通往智能化的阶梯

早在1996 年,尼葛洛庞帝在其出版的《数字化生存》一书中就指出:人类生存在一个虚拟的、数字化的空间,人们在这个空间里应用数字技术(信息技术)进行信息传播、交流、学习、工作等活动,这便是数字化生存。2010 年2 月,肯尼斯?库克尔在《经济学人》上发表了一篇长达14 页的大数据专题报告——《数据,无所不在的数据》,该报告中写道,“世界上有着无法想象的巨量数字信息,它们以极快的速度增长……从经济界到科学界,从政府部门到艺术领域,很多地方都已受到这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇——‘大数据’”。库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。2018 年,人工智能风起云涌,苹果手机装上了AI 芯片,百度无人驾驶汽车开进了北京海淀公园。展望未来,AI 不仅将走入寻常百姓家,还将成为与生命科学并肩的技术。它一方面使机器更像人;另一方面使人更像机器(基于基因和量子科技等技术,使现代医学更好地了解人类)。

数据分析(或数据挖掘)算法作为AI 这一未来革命性趋势的重要引擎,是近期AI 能成功的第一重要因素。深度学习是数据分析算法的一个分支,它的出现类似于医学史上出现的青霉素,青霉素使西医掌握了一项重要的“武器”。要掌握AI 这项“武器”,我们就必须从最基础的数据知识开始学习,丁亚军老师的《统计分析:从小数据到大数据》一书是给零基础的朋友提供的一本严谨又不失趣味的教材,通过这本书,我们可以领略到数据的魅力!

作为CDA 数据分析师品牌的首席讲师,丁亚军老师一直致力于把自己在电商大数据、统计调查小数据的实战心得传授给学员。

这些年来,CDA 数据分析师的企业客户名单中增添了不少重量级的客户:银行,如中国工商银行、中国银行、招商银行、中国邮政储蓄银行、渣打银行、北京银行等;三大电信运营商,即中国电信、中国联通、中国移动;知名车企,如奔驰、宝马;跨国企业,如IBM、麦当劳等。数据分析师在美国是一个常设岗位,但在中国才刚刚开始设立。

本书经过CDA 和电子工业出版社审核,将其归入“CDA 数据分析师系列丛书”。对于希望加入数据分析师行业的读者来讲,本书是一本靠谱的、有趣味的商业数据分析读物。

CDA 数据分析师理事 赵坚毅

前 言

统计分析是基于大数据的商业智能分析、机器学习等多项技术的基础,同样也是训练大数据思维的理论基础。

每种技术既有优点,又有缺点。为了弥补传统统计方法的不足,人们引入了数据挖掘算法。不管是算法、应用,还是数据探索,基于不同的方法体系都将产生不同的方法论,本书以此为基础,探讨小数据和大数据的核心区别,以及由大数据引起的算法“进化”。

内容特色定位

本书内容具有如下几个重要的特征。

? 从运营报告开始了解业务环境,进而建立业务视角的统计思维,如将业务问题转化为统计问题、数据项目落地、共享模型价值等。

? 通过强调应用统计和理论统计的区别和联系,进一步讲解应用统计工作者应该如何梳理业务关系、学习统计模型等。

? 从小数据到大数据,厘清了数据分析的技术脉络,包括:模型预分析和修正;算法的“进化”,从1.0 到4.0;统计算法和机器学习的深入解读。

? 案例学习模块化和流程化。其中,模块化表现为统计的家族特征,如每种模型在家族中有什么表现、继承了什么样的算法优势;流程化表现为从小数据到大数据的算法,对应不同需求而设计的分析流程。

? 本书试图搭建统计与机器学习间的基础理论桥梁,使读者了解算法的“进化”过程,从而掌握每次进阶学习的核心信息,跨越进阶障碍。

读者定位

鉴于对统计算法和大数据算法的探讨,本书比较适合如下几类人群阅读。

(1)经常与数据运营或运营报告接触的业务人员。

本书能够帮助业务人员理解数据特征,看懂运营报告,掌握常见的数据可视化工具,使用数据语言进行业务沟通和交流,并能够提高业务人员的数据化思维,使其尽快成长为业务能手。数据运营人员和数据管理人员经常与数据打交道,他们需要知道如何将数据转化成商业价值——量化需求、寻找影响因素、工具归因、数据可视化。

(2)数据分析入门者或想转行成为数据分析师的读者。

初学者最重要的是训练统计思维,这需要初学者搭建业务框架、训练角色意识、提高审查数据的量化标准、识别数据行列模式、学习应用统计、了解统计的商业价值评估、熟悉统计解释等。本书站在初学者的视角,立体地呈现出这些必要的知识,并以案例和固定操作流程的方式展现给大家,尽量使专业的知识简易化。

(3)机器学习从业者或机器学习初学者。

大数据的温床孕育了机器学习等人工智能算法,这是大数据模式下的全新技术。小数据与大数据产生于不同的应用环境,所以小数据和大数据的算法区别是:对数据是总体分析还是个体分析、数据信息的分布是宏观的还是微观的,等等。两类算法各有千秋,甚是不同。

学习建议

建议读者将第1 章和第2 章涉及的业务思维的讨论按顺序读完。

关于第3 章,数理统计基础偏弱的读者可以直接越过与数理统计有关的内容,这样做并不影响对第3 章内容的理解。建议阅读完第3 章后直接阅读第7 章和第8 章,这样可以更好地理解全书内容,并可以完善读者对数据分析流程的学习。数理统计基础较好的读者,按顺序阅读本书即可,无须跳转。

第4 章线性回归与统计家族作为读者学习的重点,建议读者在阅读的同时跟着案例和流程进行操作。此外,建议学习第5 章Logistic 回归与统计家族时,将其中的知识点与第4 章的知识点对应起来,并回答两个问题:线性回归如何解读?线性回归如何应用?

第6 章降维技术中的主成分回归是重点内容,通过学习本章内容,读者可以体验多变量技术的案例应用及其业务、统计和可视化的整合过程。

针对本书行文内容有以下几点补充说明:

? 本书侧重于商业案例的应用,为了便于初学者理解,可能有些词汇具有个人习惯倾向,并不一定严格符合科学术语。

? SPSS 中文版有诸多翻译不足之处,但为了迎合读者的语言习惯,本书仍使用中文版对应的翻译,但会有相应注解。

? 本书涉及从小数据到大数据的方法论,为了行文方便并遵循习惯叫法,正文涉及的大数据模型称为数据挖掘模型,小数据模型称为统计模型。

致谢

本书成稿历时3 年有余,其间反复修改,甚至有停下来的想法,不过最终还是在数百个寂静的清晨后完成了书籍撰稿,在此期间不断激励我的是我的父亲,从构思到撰写,他都给予我极大的鼓励,在此表示感谢。在生活中,妻子和岳母对家庭及小宝的悉心照料,使我能够如约完稿,在此对她们表示感谢。

此外,感谢亲友丁凤萍、丁敏、徐强、丁飞等对我的支持和鼓励。

感谢赵坚毅老师,不辞辛苦提供指导意见,并为本书作序。

本书在修改过程中,尤其感谢电子工业出版社的张慧敏老师及其同事的悉心指导。

本书部分内容受到在演讲和主题研讨时学员提问的启发。因此,感谢学员对本书的期待和贡献。最后,因本人学识浅陋,行文内容难免存在不足之处,望读者不吝赐教。

说明

书中部分插图由于为软件生成图,所以图中变量显示为正体。

相关图书

大数据应用与技术丛书·数据仓库工具箱(第3版):维度建模权威指南 [The Data Warehouse Toolkit:The Definitive Guide to Dimensional Modeling, Third Edition]
维度建模技术、模式和实践,14个案例涉及零售业、电子商务、客户关系管理、采购、库存、订单管理、会计、人力资源、金融服务、医疗卫生、保险、教育、电信和运输等
数据算法:Hadoop/Spark大数据处理技巧
Mahmoud Parsian计算机科学博士力作,31个Hadoop与Spark大数据算法,包含基本设计模式、优化技术和数据挖掘及机器学习解决方案,涵盖生物信息学、基因组学、统计和社交网络分析等领域。
数据科学与大数据分析 数据的发现 分析 可视化与表示
数据科学与大数据技术参考教材,EMC数据科学参考书,数据存储EMC公司的集体智慧结晶,数据分析图书
大数据技术体系详解:原理、架构与实践
企业部署大数据必备的专业知识和经验,包括大数据的原理、架构及实战的详解
移动通信大数据分析——数据挖掘与机器学习实战
全彩印刷,4G/5G无线技术、机器学习和数据挖掘的新研究和新应用。亚信科技董事长田溯宁博士,AT&T(美国电话电报)公司首席科学家大卫·贝兰格博士联袂推荐
大数据、数据挖掘与智慧运营
以运用大数据挖掘方法提升企业运营业绩与效率为主线,基于企业广泛落地应用案例.

暂无评论

暂无评论...