自助广告
立即入驻
大数据书籍 Big data books

牛津通识读本:大数据

以一种通俗易懂的方式讨论这个当下炙手可热的大数据大主题

编辑推荐

大数据在21世纪的头二十年已经深深地改变了我们的生活和工作,而且这种改变还将继续深入下去,未来充满了不确定。然而,大数据给我们带来生活便利的同时,也给我们带来对侵犯隐私的恐惧。虽然我们无法完全把握大数据专家们会将算法引向何方,但了解一些大数据的基本知识,至少可以让我们减少一些内心的不安。本书以简短的篇幅,以通俗易懂的方式,探讨了当下炙手可热的大主题。

内容简介

在全世界不同的文化中,数据的收集与组织都有着悠久的历史,甚至在计算机思想出现之前很久就已存在。但只是到了互联网时代,日常产生的数据量才开始变得非常巨大,而且继续呈指数级增长,其中包括我们上传的文件、视频、照片、社交媒体信息、在线购物,甚至我们汽车的GPS导航数据。大数据这一术语所代表的不仅仅是一种量变,而是一种质变;其所指涉的不仅是新的技术,还有企业和政府利用它的方式。霍尔姆斯基于统计学、概率论和计算机科学,对大数据这一主题进行了概要性探讨,并强调指出,大数据不仅改变了商业的运营模式,而且改变了医疗研究的进行方式。与此同时,它也引起了一些重要的伦理问题,作者据此对斯诺登事件、数据安全,以及家庭智能设备可能被黑客挟持等实例进行了讨论。

作者简介

道恩•E.霍尔姆斯,现任教于美国加利福尼亚大学圣巴巴拉分校应用概率与统计学系,主要研究领域为贝叶斯网络、机器学习和数据挖掘等。霍尔姆斯是电气电子工程师学会高级会员、《基于知识的智能信息系统国际期刊》副主编,并与他人合编了三卷本著作《数据挖掘:基础和智能范例》(2014)。

精彩书评

任何对大数据这一新概念感到困惑的读者,都应该读一读这本小册子,霍尔姆斯以一种通俗易懂的方式讨论了这个当下炙手可热的大主题。
——贾德•泰勒—萨拉查,《工程与技术杂志》

目录

前 言
致 谢
第一章 数据爆炸
第二章 大数据为什么不一般?
第三章 大数据存储
第四章 大数据分析法
第五章 大数据与医学
第六章 大数据,大商务
第七章 大数据安全与斯诺登事件
第八章 大数据与社会
字节大小量表
小写英文字母ASCII码表
索 引
英文原文

精彩书摘

第一章 数据爆炸
什么是数据?
公元前431年,斯巴达向雅典宣战。修昔底德在对战争的描述中,记载了被围困于城中的忠于雅典的普拉蒂亚部队,如何翻越由斯巴达领导的伯罗奔尼撒军队所建的围墙而最终得以逃脱的过程。要做到这一点,他们需要知道城墙的高度,以便制造高度合适的梯子。伯罗奔尼撒军队所建城墙的大部分都覆盖着粗糙的灰泥卵石,但他们最终还是找到了一处砖块清晰可见的区域。接下来,大量的士兵被赋予了一项任务,就是每个人分别去计数这些裸露砖块的层数。要在远离敌人攻击的距离之外完成判断,误差难以避免。但正如修昔底德所解释的那样,考虑到计数的是众多的个体,最常出现的那个数应该是可靠的。这个最常出现的数,我们今天称之为众数,普拉蒂亚人正是使用它来计量围墙的高度。由于使用的墙砖的大小是已知的,因此适合翻越城墙所需高度的梯子也顺理成章地打造了出来。随后,数百的军人得以成功逃脱。此事可以被视为数据收集和分析最为生动的范例,也因而载入史册。但是,正如我们在本书的后续章节中将要看到的,数据的收集、存储和分析甚至比修昔底德的时代还要早几个世纪。
早在旧石器时代晚期的棍棒、石头和骨头上,人们就发现了凹口。这些凹口被认为是计数标记,尽管学术界对此仍然存有争议。也许最著名的例子是,1950年在刚果民主共和国发现的伊山戈骨,它距今大约有两万年之久。这个有着凹口的骨头被解读为具有特殊的功用,比如用作计算器或日历,当然也有人认为,骨头上的凹口只是为了方便手握。20世纪70年代在斯威士兰发现的列朋波骨甚至更为久远,时间大概可以追溯到公元前35000年左右。这块刻有29个线条的狒狒腓骨,与今天远在纳米比亚丛林中生活的土著仍然使用的日历棒,有着惊人的相似之处。这表明它确有可能是一种用来记录数据的方式,对于他们的文明来说,这些数据至关重要。
虽然对这些凹口骨骼的解释仍然没有定论,但我们清楚地知道,人类早期有充分记录的数据使用之一,是巴比伦人在公元前3800年进行的人口普查。该人口普查系统记录了人口数量和商品,比如牛奶和蜂蜜,以便提供计算税收所需的信息。早期的埃及人也擅长使用数据,他们用象形文字把数据写在木头或莎草纸上,用来记录货物的运送情况并追踪税收。但早期的数据使用示例,绝不仅限于欧洲和非洲。印加人和他们的南美洲前辈热衷于记录税收和商业用途的数据,他们使用一种被称为“奇普”的精巧而复杂的打彩色绳结的方法,作为十进制的记账系统。这些由染成明亮色彩的棉花或骆驼毛制成的打结绳,可以追溯到公元前3000年。虽然只有不到1 000个打结绳在西班牙人入侵和后续的各种毁灭性灾难中得以幸存,但它们是已知的第一批大规模数据存储系统的典范。现在有人正在开发计算机算法,试图解码“奇普”的全部含义,加深我们对其使用原理的理解。
虽然我们可以将这些早期的计数方法设想并描述为使用数据,但英文词data(数据)实际上是源于拉丁语的复数词,其单数形式为datum。今天,datum已经很少使用,“数据”的单数和复数都用data表示。《牛津英语词典》将该术语的第一个使用者,归于17世纪的英国神职人员亨利 • 哈蒙德。他在1648年出版的一本有争议的宗教小册子中使用了“数据”这个词。在此书中,哈蒙德在神学意义上使用了“数据堆”这一短语,来指称无可争辩的宗教真理。但是,尽管该出版物在英语中首次使用了“数据”这一术语,但它与现在表示“一个有意义的事实和数值总体”并不是同一个概念。我们现在所理解的“数据”,源于18世纪由普里斯特利、牛顿和拉瓦锡等知识巨人引领的科学革命。到1809年,在早期数学家的研究基础上,高斯和拉普拉斯为现代统计方法奠定了坚实的数学基础。
在更实际的层面上,当属1854年伦敦宽街暴发霍乱疫情时,针对该疫情收集的大量数据,它使得约翰 • 斯诺医生得以绘制了疫情图。数据和疫情图证明他先前的假设是正确的,即霍乱通过污染的水源传播,而不是一直以来被广为认同的空气传播。通过收集当地居民的数据,他确定患病的人都使用了相同的公共水泵。接下来,他说服地方当局关闭了该饮水源。关闭饮水源并不难,他们拆下了水泵的手柄,任务也就完成了。斯诺随后制作了一张疫情图,该图现在很出名,它清楚显示患病者以宽街的饮水泵为中心,成集群状态分布。斯诺继续在该领域潜心钻研,收集和分析数据,并成为著名的流行病学家。
约翰•斯诺之后,流行病学家和社会学家进一步发现,人口统计数据对于研究弥足珍贵。如今,在许多国家进行的人口普查,就是非常有价值的信息来源。例如,出生率和死亡率的数据,各种疾病的发生频率,以及收入和犯罪相关联的统计数据,现在都会有所收集,而在19世纪之前这些都是空白。人口普查在大多数国家每十年进行一次。由于收集到的数据越来越多,最终导致手工记录或以前使用的简单计数器,已经难以应对实际的海量数据登录。在为美国人口普查局工作期间,赫尔曼•何乐礼就遇到了如何应对这些不断增长的人口普查数据的挑战。
到1870年美国开展人口普查时,所依靠的是一种简单的计数器,但这种机器效率有限,已无法满足人口普查局的要求。1890年的人口普查有了突破,这完全得益于赫尔曼•何乐礼发明的用于存储和处理数据的打孔卡制表机。通常情况下,处理美国人口普查数据需要八年左右的时间,但使用这项新发明后,时间缩短到了一年。何乐礼的机器彻底改变了世界各国人口普查数据的分析处理,其中包括德国、俄罗斯、挪威和古巴。
何乐礼随后将他的机器卖给了一家后来称为国际商用机器(IBM)的公司,该公司开发并生产了一系列广泛使用的打孔卡机。1969年,美国国家标准协会制定了以何乐礼命名的打孔卡代码(或称何乐礼卡代码)标准,以对打孔卡机的先驱何乐礼表示敬意。
数字时代的数据
在计算机广泛使用之前,人口普查、科学实验或精心设计的抽样调查和调查问卷的数据都记录在纸上—这个过程费时且昂贵。数据收集只有在研究人员确定他们想要对实验或调查对象询问哪些问题后才能进行,收集到的这些高度结构化的数据按照有序的行和列转录到纸张上,然后通过传统的统计分析方法进行检验。到20世纪上半叶,有些数据开始被存储到计算机里,这有助于缓解部分劳动密集型工作的压力。但直到1989年万维网(或网络)的推出及其快速发展,以电子方式生成、收集、存储和分析数据才变得越来越可行。面对网络上可访问的海量数据,问题也接踵而来,它们需要及时得到处理。首先,让我们看看数据的不同类型。
我们从网络上获得的数据可以分为结构化数据、非结构化数据或半结构化数据。
手工编写并保存在笔记本或文件柜中的结构化数据,现在以电子的形式存储在电子表格或数据库中。电子表格样式的数据表由行和列组成,行记录的是数据,列对应的是字段(比如名称、地址和年龄)。当我们在线订购商品时,我们实际上也正在贡献结构化数据。精心构建和制表的数据相对容易管理,并且易于进行统计分析,实际上直到最近,统计分析方法也只能应用于结构化数据。
相比之下,像照片、视频、推文和文档这些非结构化数据就不太容易归类。一旦万维网的使用变得普遍,我们就会发现,很多这样的潜在信息仍然无法访问,因为它们缺乏现有分析技术所需的结构。但是,如果通过识别关键性特征,那么初看起来为非结构化的数据也可能不是完全没有结构。例如,电子邮件虽然正文的数据是非结构化的,但标题中包含了结构化元数据,因此它可以归类为半结构化数据。元数据标签本质上是描述性引用,可用于向非结构化数据添加可识别的结构化信息。给网站上的图像添加单词标签,它就可以被识别并且更易于搜索。在社交网站上也可以找到半结构化数据,这些网站使用主题标签,以便识别特定主题的消息(非结构化数据)。处理非结构化数据具有挑战性:由于无法将其存储在传统数据库或电子表格中,因此必须开发特殊工具来提取有用信息。在后面的章节中,我们会谈到非结构化数据的存储方式。
本章的题名“数据爆炸”一词,指的是逐渐产生的越来越多的结构化、非结构化和半结构化数据。接下来,我们将梳理产生这些数据的各种不同来源。
大数据简介
在本书的写作过程中,我在网上检索相关资料,体验了被网上可用的数据所淹没的感觉—来自网站、科学期刊和电子教科书的数据可谓海量。根据IBM公司最近进行的一项全球范围内的调查,每天产生的数据大约为2.5 Eb。一个Eb是1018(1 后面跟18 个0)字节(或100 万Tb;请参阅本书结尾的“字节大小量表”)。在写作本书时,一台高配的笔记本电脑的硬盘通常会有1 Tb 或2 Tb的存储容量。最初,“大数据”一词仅指数字时代产生的大量数据。这些海量数据(结构化和非结构化数据)包括电子邮件、普通网站和社交网站生成的所有网络数据。
世界上大约80%的数据是以文本、照片和图像等非结构化数据的形式存在,因此不适合传统的结构化数据分析方法。“大数据”现在不仅用于指代以电子方式生成和存储的数据总体,还用于指数据量大和复杂度高的特定数据集。为了从这些数据集中提取有用的信息,需要新的算法技术。这些大数据集来源差异很大,因此有必要让我们先详细了解一下主要的数据源以及它们生成的数据。
搜索引擎数据
到2015年,谷歌是全球最受欢迎的搜索引擎,微软的必应和雅虎搜索分居第二位和第三位。从谷歌可以查阅的最近一年数据来看,也就是2012年的公开数据,仅谷歌每天就有超过35亿次搜索。
在搜索引擎中输入关键词能生成与之最为相关的网站列表,同时也会收集到大量数据。网站跟踪继续生成大量数据。作为试验,我用“边境牧羊犬”为关键词进行了检索,并点击返回的最顶层网站。通过一些基本的追踪软件,我发现仅通过点击这一个网站就可以生成大约67个第三方站点的链接。商业企业之间通过此类方式共享信息,以达到收集网站访问者兴趣爱好的目的。
每次我们使用搜索引擎时,都会创建日志,它记录我们访问过的推荐网站。这些日志包含诸多有用信息,比如查询的术语、所用设备的IP地址、提交查询的时间、我们在各个网站停留的时长,以及我们访问它们的顺序—所有这些都以匿名的方式进行。此外,点击流日志记录了我们访问网站时所选择的路径,以及我们在网站内的具体导航。当我们在网上冲浪时,我们所做的每次点击都记录在某个地方以备将来使用。企业可以使用获取的软件来收集他们自家网站生成的点击流数据,这也是一种有价值的营销工具。通过提供有关系统使用情况的数据,日志有助于侦测身份盗用等恶意行为。日志还可用于评估在线广告的有效性,通过计算网站访问者点击广告的次数,广告的效用一目了然。
通过启用客户身份识别,“网络饼干”(Cookie)(一个小文本文件,通常由网站标识符和用户标识符组成)可用于个性化你的上网体验。当你首次访问所选网站时,“网络饼干”将被发送到你的计算机中,除非你已经禁用了它。以后每次你访问该网站时,“网络饼干”都会向网站发送一条消息,并借此跟踪你的访问。正如我们将在第六章中要看到的,“网络饼干”通常用于记录点击流数据,跟踪你的偏好,或将你的名字添加到定向广告中。
社交网站也会产生大量数据,脸书(Facebook)和推特(Twitter)位居榜首。到2016年年中,脸书平均每月有17.1亿个活跃用户。所有用户都在生成数据,仅日志数据每天就能达到大约1.5 Pb(或1 000 Tb)。视频共享网站优兔(YouTube)创建于2005年,目前广受欢迎,影响深远。在近期的新闻发布会上,优兔声称其全球用户数超过了10亿。搜索引擎和社交网站产生的有价值数据可用于其他许多领域,比如健康问题的处理。
医疗数据
如果我们看看医疗保健,就会发现一个涉及人口比例越来越大的被电子化的领域。电子健康记录逐渐成为医院和手术的标配,其主要目的是便于与其他医院和医生共享患者的数据,从而提供更好的医疗保健服务。通过可穿戴或可植入传感器收集的个人数据正日益增加。特别是为了健康监测,我们很多人都在使用复杂程度各异的个人健身追踪器,它们输出前所未有的新型数据。现在可以通过收集血压、脉搏和体温的实时数据,来远程监控患者的健康状况,从而达到降低医疗成本并提高生活质量的潜在目的。这些远程监控设备正变得越来越复杂,除了测量基本生命体征参数之外,睡眠跟踪和动脉血氧饱和度也成了测量的对象。
有一些公司通过激励措施来吸引员工使用可穿戴健身设备,公司设定某些具体目标,比如减肥或每天走多少步路。作为免费使用设备的条件,员工须同意与雇主共享数据。这似乎是合理的,但不可避免地要涉及个人隐私。此外,选择加入此类计划的员工很可能会承受额外的心理压力。
其他形式的员工监控也正变得越来越频繁,例如监控员工在公司提供的计算机和智能手机上的所有活动。使用自定义软件,此类监控可以包括从监视访问了哪些网站到记录键盘输入,以及检查计算机是否用于私人目的(如访问社交网站)。在大规模数据泄露的时代,安全性越来越受到关注,因此必须保护企业数据。监控电子邮件和跟踪访问的网站,只是减少敏感资料被盗的两种常用方法。
如前文所述,个人健康数据可以来自传感器,例如健身追踪器或健康监测设备。然而,从传感器收集的大部分数据都以高度专业化的医疗为目的。伴随着对各物种开展的基因研究和基因组测序,产生了一批当今规模最为宏大的数据库。脱氧核糖核酸分子(DNA)以保存生物体遗传信息而闻名于世;1953 年,詹姆斯•沃森和弗朗西斯•克里克首次将其描述为双螺旋结构。一个家喻户晓的基因研究项目是近年来的国际人类基因组计划,它的目标是确定人类DNA的30 亿个碱基对的序列或确切顺序。这些数据最终会帮助研究团队进行基因疾病的探索。
实时数据
有些数据被实时收集、处理并使用。计算机处理能力的提高,惠及的不仅是数据处理,同时也大幅提升了数据生产能力。有时候,系统的响应时间至关重要,数据必须要得到及时处理。例如,全球定位系统(GPS)使用卫星系统扫描地球并发回大量实时数据。安装在你的汽车或内置在智能手机中的GPS接收设备,需要实时处理这些卫星信号才能计算你的位置、时间和速度。(“智能”表示某个物品,这里指的是手机,具有访问互联网的功能,并且能够提供可以链接在一起的多种服务或应用。)
该技术现在用于无人驾驶或自动驾驶车辆的开发。这样的车辆已经在工厂和农场等封闭的专门场所使用,一些大品牌汽车制造企业也在开发无人驾驶车辆,包括沃尔沃、特斯拉和日产等。相关的传感器和计算机程序必须实时处理数据,以便将车辆可靠地导航到目的地,并根据道路实况控制车辆的移动轨迹。这需要事先创建待行进路线的三维地图,因为传感器不能应对没有地图的路线。雷达传感器用于监控其他车流,并将数据发回控制汽车的外部中央执行计算机。传感器必须得到有效编程以探测不同的形状,并区分诸如跑进公路的孩子和风吹起的报纸这样的不同物体,或者甄别交通事故发生后的应急交通管制。然而,到目前为止,自动驾驶汽车还没有能力应对由瞬息万变的环境所带来的各种问题。
自动驾驶汽车首次致命碰撞事故发生在2016年。当时,驾驶员和自动驾驶仪都没有对切入汽车行进路线的车辆做出反应,也就是说没有任何制动的操作。自动驾驶汽车的制造商特斯拉在2016年6月的新闻稿中说,“引发事故的情况极为罕见”。自动驾驶系统会提醒驾驶员要始终将手放在方向盘上,并且还会检查他们是否在这样做。特斯拉表示,这是他们在1.3亿英里自动驾驶中发生的第一起死亡事故,而相比之下,美国每9 400万英里的常规驾驶(非自动驾驶)就会造成一人死亡。
据估计,每辆自动驾驶汽车每天平均生成30 Tb的数据,其中大部分数据必须立即处理。一个被称为流计算的新研究领域,绕过了传统的统计和数据处理方法,以期能提供处理这一特殊大数据的解决方案。
天文数据
2014年4月,国际数据公司(IDC)的一份报告估计,到2020年,数字世界将达到44万亿Gb(1 000 Mb等于1 Gb),数据总量是2013年的十倍。天文望远镜所产生的数据与日俱增,例如位于智利的超大光学望远镜由四个望远镜组成,每晚都产生大量的数据,单个望远镜每晚所产生的数据就高达15 Tb。该望远镜在大型天气调查项目中起着引领的作用,它通过不停地扫描夜空制作和更新夜空图;该项目为期十年,产生的数据总量估计能达到60 Pb(250字节)。
在数据生成方面数量更大的是,建在澳大利亚和南非的平方公里阵列探路者(SKAP)射电望远镜。该望远镜预计于2018年开始运行。第一阶段它每秒将产生160 Tb的原始数据,随着建设进程的推进,产生的数据还会进一步的增加。当然,并非所有这些数据都会被存储,但即便如此,仍需要世界各地的超级计算机来分析剩余的数据。
数据到底有何用途?
如今我们的日常活动也会被收集并成为电子化的数据,想避免个人数据被收集几乎已经是不可能的事。超市收银机记录我们购买的商品的数据;购买机票时,航空公司收集我们旅行安排的信息;银行收集我们的财务数据。
大数据广泛应用于商业和医学,并在法律、社会学、市场营销、公共卫生和自然科学的所有领域得到运用。如果我们能够开发合适的数据挖掘方法,那么所有形式的数据都有可能提供大量有用的信息。融合传统统计学和计算机科学的新技术,使得分析大量数据变得越来越可行。统计学家和计算机科学家开发的这些技术和算法,可用以搜索数据模式。梳理出关键的模式,是大数据分析成功与否的关键。数字时代带来的变化大大改变了数据收集、存储和分析的方式。得益于大数据革命,我们才有了智能汽车和家庭监控。
以电子方式收集数据的能力,催生了令人兴奋的数据科学,也促成了统计学和计算机科学的融合。大量的数据得到有效分析,从而在跨学科应用领域产生了新的见解,获得了新的知识。处理大数据的最终目的是提取有用的信息。例如,商业决策越来越依靠从大数据中分析所得的信息,并且期望值很高。但是,目前还有一些大难题亟待解决,尤其是缺乏训练有素的数据科学家,只有他们才能有效地开发和管理那些提取有用信息的系统。
通过使用源自统计学、计算机科学和人工智能的新方法,人们正在设计新的算法,有望推动科学的进步和产生新的科学见解。例如,尽管无法准确预测地震发生的时间和地点,但越来越多的机构正在使用卫星和地面传感器收集的数据来监测地震活动。其目的是想大致确定,从远期来看,可能会发生大地震的地方。美国地质调查局(USGS)是地震研究领域的主要参与者。该机构2016年预测:“加利福尼亚州北部地区未来三十年发生里氏7级地震的概率为76%。”诸如此类的概率评估有助于将资源集中于重要事项,比如确保建筑物能够更好地抵御地震并实施灾害管理计划等。来自不同国家和地区的数家公司,正在使用大数据来改进地震的预测方法,这些方法在大数据出现之前是不可想象的。现在我们有必要来看一下大数据的非凡之处。

前言/序言

序 言
王崇骏
四方上下曰宇,往来古今曰宙!
从137亿年前宇宙大爆炸,到46亿年前地球诞生,再到38亿年前地球上开始有生命,直至约6000年前文字的出现开启了人类文明,这是一个多么漫长的过程!与其他物种大多通过遗传进化不同,人类在进化过程中发展和演化出了一种非遗传性的继承:通过独一无二且日益发达的文化媒介(语言、文字以及有意识地利用外在物和工具的特质)将知识留给后代。这种文化传承使得人类可以快速进化,并最终成为这个星球的“统治者”。
在漫长的人类文明发展史中,从源自动物性的“数觉”到为了“征服”自然界,人类开始对“数”产生了需求,并且随着这种需求的逐步膨胀,一系列的工具、算法、设备被不断发明和创造,比如早期的计时工具、计数工具,以及诸如算筹、算盘等算术工具。随着计算理论的丰富,以及机械工艺的进步,人们开始思考如何用更为精巧的设备进行计算,如纳皮尔筹、机械尺、机械计算机等;而图灵机理论的发明、冯诺伊曼体系结构的提出,以及1946年ENIAC的发明,则让数字计算时代就此来临。
在后ENIAC时代,计算机从最开始的军用走向了民用,其功能不断发展和丰富,从最开始的数值计算走向网络通信、计算感知,并逐渐应用于生活娱乐和企业管理。与此同时,也因为计算机在各个领域的渗透和深入应用,计算机从最原始的计算工具变为一个研究对象,伴随着各类计算理论的发展,计算机科学与技术、工程和应用也得到持续的发展和推进。在这个发展过程中,传统的“数”的内涵,也从最开始的“数值”不断拓展,数据开始以不同的类型、模态、视图样式出现,并服务于人们的需求,传统意义的“数值”则成为一种数据类型。
信息技术,尤其是互联网技术的迅猛发展,烟囱式软件开发模式、云计算在不同领域的不断渗透,以及人们日益多样化和碎片化的行为方式,或许还有其他更多的原因,让人们在数据层面不得不面对“大数据”这样的难题,即难以在期望的时间内利用常规工具进行有效处理并获得期望的价值。在当下的大数据时代,传统意义的“数据”成为一种可以交易的“资产”,一种具有战略资源意义的“石油”,一种提高竞争力的“资本”,一种用于科学研究的“第四范式”。出于对大数据价值期望的共同追求,社会各界都对大数据产生了极大的兴趣、热情和期盼,使得“大数据”这个概念从其诞生之日起,就得到了“政、产、学、研、商、用”的一致认同,并引起了包括哲学家、科学家、技术研究者和工程研发人员等的普遍关注。
牛津通识读本《大数据》一书,当然也是对这一社会关注点的回应。道恩•E.霍尔姆斯教授是贝叶斯网络、机器学习和数据挖掘方面的专家,她用深入浅出的文字扼要介绍了什么是数据、什么是大数据以及它有什么意义,进而对大数据应用所涉及的存储和分析技术进行了简明扼要的综述,并在此基础上,分析和研判了大数据在医学、电子商务、安全、生活等各个领域的应用。这样一本概述性质的通俗读物,非常有助于普通读者更多地了解大数据,学习大数据,应用大数据,进而培养一种大数据思维,惟其如此,才能适应未来的大数据时代。
对于本书所涉及的内容,笔者还想做一些补充说明,即看待大数据的三个视角和四个维度,以使读者对于大数据的认识更加全面。首先谈谈三个视角。
一是计算视角:从计算视角来看,大数据是一个难以获取、难以组织与管理、难以处理和分析的技术难题(以及因此而引发的各类思维层难题),也正是因为这样的难题驱动,加之人们对大数据在优政、兴业、科研、惠民等不同领域的价值期望,促使相关科研人员进行技术攻关和发明创造,进而推进了相关理论和技术的发展。
二是科研视角:从科学研究的角度来看,大数据成为继实验、理论、模拟之后用于科学研究的“第四范式”(此处的“范式”指的是从事某一科学的科学家群体所共同遵从的世界观和行为方式)。
三是商业视角:从商业应用的角度来看,大数据能够带来利润。一般而言,只要找到一个合适的应用场景,能够为这个应用场景找到一个合适的解决方案,知道数据的来源并且能够获取,而且有技术支撑(研发能力),更重要的是能够找到融资支持(经过可行性分析、盈亏平衡分析等之后),就有可能最终成功应用并获得收益。这在彰显大数据商业价值的同时,也会促使同行去挖掘更多的大数据价值。
更进一步说,大数据的价值实现,涉及数据、技术与应用的协同,具有典型的多学科交叉与跨界整合特征,因此就总体而言,大数据价值的实现至少涉及如下四个维度(层面)。
1.算法(Algorithm):大数据价值的实现路径涵盖了数据采集与汇聚、数据存储与管理、数据处理与分析、应用系统开发与运维,每一个环节都需要依赖不同的算法进行,如数据采集算法、数据汇聚算法、数据治理算法、数据处理和分析算法等。
2.商业应用(Business):大数据应用一般体现在描述性分析、预测性分析或者决策性分析等,任何一种应用都是围绕某个具体场景展开的,因此大数据价值得以实现的一个重要前提,是找到一个合适的应用场景,该应用场景既直击需求痛点并有投资回报预期,又有数据积淀和IT建设基础。大数据在这个场景的应用,能够进一步内生和富集更多数据并因而形成数据闭环,就能进一步体现和实现大数据价值。
3.算力(Computing Power):所谓算力,指的是设备的计算能力,显然,对于大数据应用而言,更精准(复杂)的算法以及更高效的计算需求都需要强大的算力支撑,因此算力是大数据价值实现的基本保障。
4.数据(Data):数据是大数据价值实现的基础,因此必须首先解决诸如数据在哪以及如何从不同的数据源获取数据,并进行有效的富集、汇聚和深入加工等问题,从而为应用提供数据支撑或高级语义支撑。
2017年,中国政府发布了“新一代人工智能规划”,明确提出了大数据智能这一概念,其内涵在于形成从数据到知识、从知识到智能的能力,打穿数据孤岛,形成链接多领域的知识中心,支撑新技术和新业态的跨界融合与创新服务。显然,大数据智能进一步明确了,在上述四个维度共同发力的基础上实现大数据价值的基本路径。
此外,笔者还想提请读者注意的是,数据的本质是行为主体(例如人)在进行各类活动(生活、工作、娱乐)时的行为、偏好等痕迹被业务系统(或互联网、物联网等)地记录在各个服务器里。因此,数据本身暗含着行为主体的隐私,所以围绕大数据价值的实现,数据隐私与安全保护是一个不可回避的重要内容。这一点在《大数据》一书中也有专章介绍。2018年5月25日,欧盟《通用数据保护条例》(简称GDPR)正式实施,在全球范围内掀起了数据保护改革的浪潮。在数据全球化深入发展的当下,如何在后GDPR时代建立起一套数据保护法律体系,既符合国际最佳立法实践又符合本国国情,既能为个人权益、数字经济、国家安全等系列利益保驾护航,又能在国际数据规则制定中占有话语权,也成为各国政策制定者普遍关注的领域。
通读《大数据》一书,萦绕于笔者心中的问题是:大数据会让我们的生活变得更好吗?如何才能让我们的生活变得更好呢?在阅读本书的过程中,笔者能够感觉到作者在成文时力求做到“在不牺牲准确性的前提下,尽可能写得简单”,同时又能做到周全和清晰。因此,本书尤其适合对大数据有兴趣的初学者,其真正的意义在于:为你打开了一扇门,并言明了很多方向。

于南京九乡河
2020年7月12日

相关图书

Hadoop权威指南:大数据的存储与分析(第4版)
全方位介绍了Hadoop 这一高性能的海量数据处理和分析平台。
数据算法:Hadoop/Spark大数据处理技巧
Mahmoud Parsian计算机科学博士力作,31个Hadoop与Spark大数据算法,包含基本设计模式、优化技术和数据挖掘及机器学习解决方案,涵盖生物信息学、基因组学、统计和社交网络分析等领域。
Spark大数据分析实战
基于Spark2.4.x新版本编撰,通俗易懂,无痛上手结合丰富案例详解Spark生态系统主流的大数据处理技术
Hadoop 3大数据技术快速入门/大数据技术丛书
快速学习Hadoop、Hive、HBase、Docker技术
大数据运营与管理 数据中心数字化转型之路
涵盖通信、金融、政府、电力等15个真实案例+4个大型案例
大数据应用与技术丛书·数据仓库工具箱(第3版):维度建模权威指南 [The Data Warehouse Toolkit:The Definitive Guide to Dimensional Modeling, Third Edition]
维度建模技术、模式和实践,14个案例涉及零售业、电子商务、客户关系管理、采购、库存、订单管理、会计、人力资源、金融服务、医疗卫生、保险、教育、电信和运输等

暂无评论

暂无评论...