深度剖析大数据

谈及大数据时,我们常常感到它只是个概念,但大数据的实际内涵和定义却众说纷纭。一项标准的定义总是缺失。

为清晰理解大数据,不妨从字面意义入手。在维克托·迈尔-舍恩伯格和肯尼斯·库克耶合著的《大数据时代》中,他们提出了大数据的四个特征:

一、数量庞大

只有数据量级达到 PB 级以上,才能称为大数据。1PB 等于 1024TB,1TB 等于 1024G,因此 1PB 等于 10241024 个 G 的数据。

二、价值显著

拥有 1PB 以上全国所有 20-35 岁年轻人的上网数据,它自然就具备了商业价值。我们通过分析这些数据,可以深入了解这些人的兴趣爱好,进而为产品发展方向提供指导。同理,拥有数百万患者数据,可据此预测疾病发生,这也是大数据的价值所在。

三、多样性

如果只有单一的数据源,那么这些数据就毫无价值。例如,只有个人数据或用户提交的数据,这些数据还不能称为大数据。大数据需要具备多样性。比如,当前上网用户中,年龄、学历、爱好、性格等特征各有不同,这就是大数据的多样性。如果扩展到全国范围,数据的多样性将更加显著,每个地区、每个时间段都存在着各种各样的数据多样性。

四、处理速度快

通过算法对海量数据进行逻辑处理的速度非常快,1秒定律可从各种类型的数据中快速获取有价值的信息。这一点与传统的数据挖掘技术有着本质的区别。

大数据在各行业的应用

大数据无处不在,涵盖了包括金融、汽车、餐饮、电信、能源、健身和娱乐等在内的各个行业。每个行业都能从中受益。

制造业:利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺、优化生产过程能耗、工业供应链分析与优化、生产计划与排程等领域。

金融行业:大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥着重要作用。

汽车行业:利用大数据和物联网技术的无人驾驶汽车,在不远的将来将走进我们的日常生活。

互联网行业:借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。

电信行业:利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。

能源行业:随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。

物流行业:利用大数据优化物流网络,提高物流效率,降低物流成本。

城市管理:可以利用大数据实现智能交通、环保监测、城市规划和智能安防等领域。

生物医学:大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读 DNA,了解更多的生命奥秘。

体育娱乐:大数据可以帮助我们训练球队,决定投拍哪种题材的影视作品,以及预测比赛结果。

安全领域:政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。

个人生活:大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。

大数据的价值,远远不止于此。大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。

大数据应用的技术

谈到技术层,大数据包含三个层级:数据采集层、数据存储层和数据计算层。

一、数据采集层

数据采集层以 App、SaaS 为代表的服务。

大数据基础阶段需掌握的技术有:Linux、Docker、KVM、MySQL 基础、Oracle 基础、MongoDB、Redis 以及 Hadoop、MapReduce、HDFS、Yarn 等。

二、数据存储层
<

大数据应用层是数据应用的基础,为移动社交、交通、教育和金融等领域提供服务。

数据计算应用层

大数据架构设计阶段的技术:Flume分布式、Zookeeper、Kafka等。

大数据实时计算阶段的技术:Mahout、Spark、storm。

大数据的岗位

1. 数据分析师(Data analyst)

熟悉业务,构建数据分析框架,掌握数据搜集、整理、分析技能,提供指导分析意见。

2. 数据架构师(Data architect)

负责Hadoop解决方案全生命周期,包括需求分析、平台选择、技术架构设计、应用设计和开发、测试和部署。

熟练编写MapReduce作业,管理作业流,使用Hadoop通用算法,掌握生态系统组件(例如:Yarn、HBase、Hive、Pig),监控平台,辅助运维系统开发。

3. 大数据工程师(Big Data Engineer)

收集、处理大规模原始数据;将非结构化数据转换为适合分析的形式;基于分析提供商业决策。

4. 数据仓库管理员(Data warehouse manager)

制定并实施信息管理策略;协调和管理信息管理解决方案;范围、计划和优先级安排多个项目;管理仓库各方面,例如数据外包、移动、质量、设计和实施。

5. 数据库管理员(Database manager)

提高数据库工具和服务的效率;确保数据符合法律规定;保护和备份信息;定期报告;监控数据库性能;改进技术;建立新数据库;检测数据录入程序;故障排除。

6. 商业智能分析员(Business intelligence analyst)

传播信息,增强工具、报告或元数据;测试需求一致性;使用商业智能工具识别或监测客户;综合数据,支持行动建议;维护或更新商业智能工具、数据库、仪表板、系统或方法;及时管理用户流量商业情报。