内容简介
“大数据”一词已成为当下门的词汇之一。人们热切期待大数据能给工作、学习和生活等方面带来的变化,而大数据的采集、存储、计算、分析挖掘、呈现和安全等技术正是实现这一变化的关键。《大数据技术全解:基础、设计、开发与实践》的重点不在于对大数据技术的原理性介绍,而是从实战角度出发,系统地阐述如何基于Hadoop开源软件为客户设计、安装和开发一个大数据系统。《大数据技术全解:基础、设计、开发与实践》还着重分享了具体实践中的一些案例,不仅对于从事大数据系统开发的IT技术人员具有珍贵的参考价值,而且对准备实施大数据系统项目的企业级客户也具有指导作用。
《大数据技术全解:基础、设计、开发与实践》可以作为计算机软件专业的本科生和研究生的大数据技术教材,也可作为大数据技术开发培训、大数据系统咨询规划培训的教材,更是大数据领域内一线的需求分析人员、系统分析人员、开发人员和开发管理人员的必备参考书。
目录
第1 篇 基础篇
第1 章 大数据的三把利剑........................ 2
1.1 豌豆杂交实验.................................. 2
1.2 曹冲称象启示.................................. 2
1.3 谷歌的三把利剑............................... 4
1.4 智慧改变世界.................................. 4
第2 章 企业的大数据观............................ 5
2.1 企业面临的挑战............................... 5
2.1.1 数据能力是核心竞争力....... 5
2.1.2 从粗放经营到智慧经营....... 6
2.1.3 技术与商业的双重挑战....... 6
2.2 企业大数据从哪来........................... 7
2.2.1 来自于主体的产生............... 7
2.2.2 来自于客体的产生............... 8
2.2.3 来自于社会的产生............... 9
2.3 企业大数据如何存储....................... 9
2.3.1 非结构化数据存储............... 9
2.3.2 结构化数据存储................. 10
2.3.3 半结构化数据存储..............11
2.3.4 大数据存储的问题............. 12
2.4 企业大数据如何加工..................... 13
2.4.1 分析或挖掘模型设计......... 14
2.4.2 并行处理程序编码............. 15
2.4.3 结果在全局中呈现............. 17
2.5 企业的大数据到哪里去................. 17
2.5.1 大数据对企业影响深远............................. 17
2.5.2 大数据是一种新商品......... 18
2.5.3 精准营销需要大数据......... 18
2.6 企业大数据观总结........................ 19
第3 章 大数据和大数据系统.................. 20
3.1 大数据............................................ 20
3.1.1 大数据概念......................... 20
3.1.2 大数据的特征..................... 21
3.1.3 数据计量单位..................... 21
3.1.4 大数据来源......................... 22
3.1.5 大数据类型......................... 22
3.2 大数据系统.................................... 22
3.2.1 设计目标和原则................. 23
3.2.2 系统的设计思想................. 23
3.2.3 系统的逻辑架构................. 25
3.2.4 与现有系统的关系............. 26
3.2.5 当前的大数据系统............. 28
第2 篇 技术篇
第4 章 分布、键值对与族...................... 36
4.1 分布与MapReduce ........................ 36
4.2 键值对的奥妙所在......................... 38
4.3 动态数据库表原理......................... 39
第5 章 HDFS(分布式文件系统)........ 40
5.1 设计目标........................................ 40
5.2 基本概念........................................ 40
5.2.1 块......................................... 41
5.2.2 名称节点与数据节点......... 41
5.3 系统架构........................................ 42
5.3.1 逻辑架构............................. 42
5.3.2 物理架构............................. 43
5.4 运行机制........................................ 43
5.4.1 文件读取............................. 43
5.4.2 文件写入............................. 44
5.4.3 关注............................. 46
5.5 系统功能........................................ 49
5.5.1 多文件系统......................... 49
5.5.2 目录管理....................
摘要与插图
这次是我第一次为别人的书写序。序要求是有高度的、简练的文字。一方面,本人向来文学水平一般,无法写出很漂亮的文字;另一方面,一直觉得自己在学术方面的造诣太浅,为别人的书写序,有点班门弄斧的感觉。自己同时也怕序没有写好,反而给书带来了负面的影响。这次是因为受了感动,才冒着各种压力,绞尽脑汁来写这个序。作者是一个我敬佩的人,敢于做具有挑战性的工作。写书本来不是一件容易的事情,写一本关于的技术的书,更加不容易。除了作者自身需要有很高的技术造诣,对书中相关技术的理解足够深刻外,还需要作者具备很强的表达能力和说服能力,把技术的奥秘清晰明了地展现给读者,让读者能够享受地从书中了解并明白技术及其内涵。同时,作者还要在内容和描述上有说服力,以各种论证、对比、案例等形式来让读者接受新的技术。通常,关于技术的对比和案例等都贫乏,作者必须花大量的时间来自行设计和
调研才能获得这些信息。本书的作者在写书过程中,每次都让我感到他坚定的信念,我深信他会坚持完成这个书稿。同时,他的书稿通俗易懂并且有足够的技术深度。作者漂亮地完成如此具有挑战性的工作,赢得了他应该有的尊重,这让我感动。
本书的内容展现了大数据领域中一些的技术,主要集中于Hadoop 生态中的HDFS(分布式文件系统)、MapReduce 分布式计算框架以及Hbase 分布式数据库三大核心部件的相关技术和实现。作者分别从基础、技术、设计、安装、开发、实践等六个方面来展开这些技术,兼顾了技术原理、具体操作以及设计开发三个层面。不同背景、不同层次和不同目的的读者可以从这三个层面的六个方面来有选择地进行阅读。作者凭借其技术造诣,对内容的设计和编排以及技术的深度等把握得很好。
从技术层面,大数据是当前应对大规模基础设施以及大规模数字化后所产生的巨量数据的有效的技术之一。大数据提供了和高性能的数据采集、处理、存储、分析和挖掘的技术,使我们可以从容应对当前的巨量数据。从科学层面,大数据是当前数据科学的一个具体的技术实现,是当前科学发现中基于实验的科学发现方法、基于理论的科学发现方法和基于计算的科学发现方法以外的一种创新的科学发现方法。其主要思想是凭借巨量的数据,找出部分现象的有价值的信息,如各种现象之间的关联等。近年的一些实际案例显示,大数据在部分领域的应用中能够有效地从巨量的、低价值密度的数据中分析挖掘出有价值的信息。
大数据技术的流行度和热度,相信读者都已经感受到了。此书可以协助读者进一步了解大数据领域中部分的技术,帮助读者学习和掌握这些技术的精髓,推动大数据在更加广泛的范围内的应用。
赵淦森
华南师范大学计算机学院 博士生导师
大数据无疑是当前IT 产业界的热点。由于它对综合技术能力要求较高,各位初学者该如何“拥抱大数据”,还没有人能给出答案。本书可谓是“久旱中的甘霖”,为大家打开了大数据这一领域的大门,从大数据的基础技术,到系统的设计理论,无不进行了全面的概括和总结;本书绝不类似于当前一些大数据书籍的浅尝辄止,作者倾尽笔墨对大数据的系统设计、环境安装及开发实践进行了论述,使读者可以“登堂入室”,快速投入实战,把大数据技术从概念转化为实际的研发能力。巨龙兄在IT 产业界已经工作了20 余载,长期从事IT 企业高层技术管理工作,对咨询规划、技术研发、人才培养等各环节都擅长。书中随处可见他对大数据技术的深入理解,以及多年来孜孜不倦的经验总结,各处“杀马特”的概括和点评闪烁着智慧的光芒,使人深受启发。“集大成者得智慧”,看完本书后,仍让人回