一位顾客闯入商店,要求与经理会面,然后愤怒地指责道:”我女儿还在上高中,你们却给她寄婴儿床和婴儿服的优惠券,难道这是在鼓励她怀孕吗?”

几天后,经理打电话向这位顾客道歉,平静地说:”我已经和女儿沟通过了,她的预产期是 8 月份。我完全没有意识到这一点,我应该为我的粗心道歉。”

——《大数据时代》

这段话展示了美国一家零售商如何通过分析大量女性的购物记录,利用购物内容的变化推测怀孕月份甚至预产期,进而精准投放购物广告。

结果表明,掌握大量数据的机器比麻木不仁的父亲更早了解女儿的身体状况,这着实令人惭愧。

这个例子只是大数据应用的一个缩影。在当前大数据时代,从浩瀚数据中蕴含着丰富的信息,把握恰当就是无穷的商机。

从字面意思理解,大数据就是巨量的数据。业界一般认为,当数据量大到常规设备无法存储和计算时,就可以称之为大数据了。

「大数据又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。」

—— 维基百科

「大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。」

—— 百度百科

「大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、存储、管理和处理能力。」

—— MBA智库

从上述定义可以看出,数据量要大到无法用常规方法处理的程度;大数据作为信息资产,需要通过处理从中提取有价值的信息。

普通个人电脑所能存储的数据,一般是几百个 GB 到几个 TB 的级别。

例如,常见的固态硬盘,512GB 已经是比较大的了;常见的机械硬盘,可达 1TB/2TB/4TB 的容量。

表达数据容量的 KB、MB、GB 和 TB 之间的关系,大家应该都很熟悉了:

KB (Kilo Byte) — 千字节,也就是 1024B

MB (Mega Byte) — 兆字节,也就是 1024KB

GB (Giga Byte) — 吉字节,也就是 1024MB

TB (Tera Byte) — 太字节,也就是 1024GB

而大数据是什么级别呢?PB/EB 级别。其实就是在 TB 的基础上,每一级继续乘以 1024。

PB (Peta Byte) — 皮字节,也就是 1024TB

EB (Exa Byte) — 艾字节,也就是 1024PB

ZB (Zetta Byte) — 泽字节,也就是 1024EB

YB (Yotta Byte) — 尧字节,也就是 1024ZB

以上这些大的单位在日常生活中几乎不会接触到,而且常人也无法直观地感受到这些单位可以大到什么让人惊叹的程度。下面我们举一个简单的例子来说明。

一本《红楼梦》:纯文本(未压缩),约 2MB

一张 1200 万像素的照片(未压缩):约 34MB

一部 90 分钟的电影(H.264 编码):约 2.5GB(也就是 2500MB)

这样算下来,一块 1TB 的硬盘大约可以存储 50 万本电子书,3 万张图片,400 部电影。假设三大数据

非结构化数据
非结构化数据指那些没有固定格式且内容需经过分析和识别才能理解的数据,例如网页、图片、音频和视频。这种数据占比可高达 80% 以上。
大数据的特点
大数据并非精确,而是多样化。只要数据包含可挖掘信息,无论类型如何都会被接纳。
大数据的价值
尽管数据体量庞大,但其价值密度极低,需要经大量分析和提炼才能发现规律。一项不完全统计表明,公安机关每年存储的数据量高达 3.3EB,可结合视频监控和人脸识别实现快速犯罪嫌疑人锁定和实时监控。
可见,大数据的价值密度之低。大数据的价值体现在对内部相关性的发掘,而非对因果性的追寻。现实世界错综复杂,具有相关性的事件不一定直接存在因果关系。
我们不必纠结事件的具体前因后果,只需了解其正向或负向联系。这种实用主义的态度为数据分析带来了价值。
例如,沃尔玛超市发现将啤酒和尿布放在一起时,啤酒销量会显著增加。管理层需要做出两项选择:继续研究这一现象背后的因果关系,还是立即在所有门店实施此策略以快速获利?
答案显然是后者。大数据分析旨在发现相关性创造价值,而非探索因果关系开展科研。
大数据的应用
用户画像
「千万人撩你,不如一人懂你。」在现实世界中,唯一了解你的人就是默默关注你的大数据。
你的每一次行为都被各种应用程序记录并分析,从而提炼出你的典型特征,并以此为你打上各种标签。这些标签汇聚起来构成了你在网络上的化身,美其名曰「用户画像」。
通过收集和分析多维数据,这些用户画像可以全方位展现一个人的网络生活,用户在大数据面前无处遁形。基于对用户的深入了解,各种精确营销得以高效实施。
决策支持
在移动通信领域,所有用户产生的海量信令交互、网络测量报告以及各种业务数据都被记录下来。
这些信息除了可用于追踪用户、解决故障外,还能借助大数据分析了解自身的网络覆盖、容量、用户满意度等指标,并与竞争对手进行对比分析。
基于大数据的分析结果,网络优化、用户体验提升等操作都可以有的放矢,更加方便高效。
在医疗领域,大量患者产生的海量数据可用于临床治疗对比、药品研发、疾病诊断,甚至还能作为医保政策和额度调整优化的依据。
除了上述示例,大数据还在互联网、金融和垂直行业中有着广泛的应用场景。总结起来就是「知己知彼,百战不殆」,「运筹帷幄,决胜千里」。
大数据的处理
由于大数据分析需要对大量数据进行分解、统计和汇总,一台机器肯定无法胜任。因此产生了分布式计算的方法。
即,将大量数据分成多份,每台机器只处理其中一份,多台机器并行处理,大幅提升处理速度。
例如,著名的 Terasort 对 1TB 数据进行排序,单机处理需要数小时,但并行处理仅需 209 秒即可完成。
在分布式计算框架下,大数据的处理可以分为数据收集、数据存储、数据处理(资源管理与服务协调、计算引擎)、数据分析、数据可视化这几层。
大数据与云计算和人工智能
大数据需要大量服务器资源,但这些资源可能并不是随时都满负荷工作。例如,使用大数据分析公司的财务状况,可能只需一周分析一次,但将成千上万台机器放在机房里,每周仅用一次是非常浪费的。
这正是云计算诞生的初衷。如果能将不同的时间不同企业閒置的机器提供的网络、存储以及计算能力共享给其他企业使用,资源利用率将大大提升。
云计算通过硬件资源的虚拟化,相當于平台的提供者,而大数据是海量数据的高效处理,相当于云计算平台上的大型应用。
那么,大数据和人工智能有没有关系?实际上,大数据是人工智能发展的先决条件。
目前人工智能的主流算法是深度学习,其能够大展身手需要两个条件:强大的计算能力和高质量的大数据。其中最具代表性的系统,就是著名的「谷歌大脑」。
这是一个龐大的深度学习计算框架,拥有数万台高性能计算机和顶级图形处理器组成的计算单元,可以完成大规模、多维度、多层次的深度学习模型训练。
据悉,在谷歌大脑建立不久,谷歌就使用了一个拥有 16000 个 CPU 组成的超大规模计算机群集,让机器使用深度学习模型自己「观看」了一千万段影片,最终將人工智能训练成能够從影片中辨识出一只猫。
没有大数据提供的充足学习样本,深度学习系统即使搭建得再完善也没有用。可以说,深度学习算法是灵魂,云计算是肉体,大数据则是粮食。

在粮食的滋养下,肉体和灵魂方能茁壮成长。同理,人工智能的蓬勃发展离不开三者协同作用:粮食(大数据)肉体(5G万物互联)灵魂(人工智能本身)

5G带来的万物互联宛若一片沃土,为大数据采集提供了肥沃的土壤,养育着人工智能的壮大。正如文章开篇所述,大数据、云计算、人工智能和5G密不可分,相辅相成。

本期内容到此结束,希望有所助益。

—— 光阴荏苒,结语终至 ——

参考文献

1、《大数据时代》,维克托•迈尔•舍恩伯格,肯尼思•库尼耶

2、《看懂“大数据”,这一篇就够了!》,鲜枣课堂

3、《大数据技术体系详解,原理,架构与实践》,董西成