大数据技术入门:Hadoop+Spark

价格	￥49.90对比
发货	广东东莞市
销量	暂无
评价	已有 0 条评价
人气	已有 0 人关注
数量	+- 库存100本

联系方式

加关注0

新书科技

VIP会员第2年

资料未认证

保证金未缴纳

广东-东莞市
上次登录 2024-08-03 •
新书 (先生)

进入主页更多商品

商品详情
评价详情(0)

内容简介

本书基础理论、应用开发以及实际案例相结合，围绕Hadoop、Spark生态圈循序渐进地介绍关于大数据技术领域中的基础知识、应用开发技术和基于Spark的常见机器学习算法，后以两个实战案例、系统地应用了本书介绍的基础知识和应用开发方法。全书共14章，分别为大数据概述、Hadoop简介及安装部署、HDFS、MapReduce计算框架、Hive数据仓库、Hbase分布式数据库、Spark基础、Spark RDD弹分布式数据集、Spark SQL、Spark Streaming实时计算框架、Spark Streaming与Flume、Kafka的整合、Spark MLlib 机器学习、实战案例——分布式优惠券后台应用系统和实战案例——新闻话题实时统计分析系统，书中的每个知识点都有相应的实现代码和实例。本书主要面向广大从事大数据分析、应用开发、机器学习、数据挖掘的专业人员以及从事高校信息技术专业的教师和高等院校的在读学生及相关领域的广大科研人员。

目录第1章大数据概述1.1大数据的研究背景1.2大数据的定义及其技术特点1.2.1大数据的定义1.2.2大数据的基本特点1.2.3典型的大数据处理需求与计算特征1.3大数据处理的主要技术特点与难点1.4研究大数据的意义1.5本章小结第2章Hadoop简介及安装部署2.1Hadoop简介及生态体系2.2Hadoop集群架构2.3Hadoop集群运行环境搭建2.3.1Hadoop安装配置过程2.3.2验证Hadoop的安装2.4本章小结第3章HDFS3.1相关基本概念3.2HDFS存储架构3.2.1HDFS写入流程3.2.2HDFS读取流程3.3HDFS的优点与缺点3.3.1HDFS的优点3.3.2HDFS的缺点3.4HDFS Shell常用命令3.5HDFS的Java API3.6本章小结第4章MapReduce计算框架4.1MapReduce核心思想4.2MapReduce的工作原理4.3MapReduce的运行机制4.4MapReduce数据本地化4.5MapReduce编程4.5.1MapReduce运行模式4.5.2MapReduce编程组件与数据类型4.6MapReduce编程示例4.6.1单词计数4.6.2倒排索引4.7本章小结第5章Hive数据仓库5.1Hive概述5.1.1Hive简介5.1.2Hive的架构5.1.3Hive的优缺点5.2Hive的安装5.2.1安装MySQL5.2.2安装Hive5.3Hive数据库相关r/>5.3.1Hive的数据类型5.3.2Hive基础SQL语法5.4本章小结第6章Hbase分布式数据库6.1Hbase概述6.1.1Hbase的架构6.1.2Hbase的特点6.1.3Hbase数据存储方式6.1.4Hbase寻址机制6.2Hbase的安装6.3Hbase数据模型6.4Hbase的Shellr/>6.5Hbase常用的Java API及示例程序6.5.1Hbase常用的Java API6.5.2程序示例6.6本章小结第7章Spark基础7.1Spark概述7.1.1Spark的主要特点7.1.2Spark生态系统7.1.3Spark相对于Hadoop MapReduce的优势7.2Spark的安装7.2.1Spark的部署方式7.2.2Spark的安装7.3Spark运行架构与原理7.4Spark运行流程7.5本章小结第8章Spark RDD弹分布式数据集8.1RDD的设计与运行原理8.1.1RDD的概念8.1.2RDD的分区8.1.3RDD的依赖关系8.1.4RDD在Spark中的运行流程8.1.5RDD容错机制8.2RDD API编程8.2.1RDD的创建8.2.2RDD的r/>8.3程序示例：倒排索引8.4本章小结第9章Spark SQL9.1Spark SQL概述9.1.1Spark SQL简介9.1.2Spark SQL的架构 9.2Dataframe9.2.1Dataframe简介9.2.2Dataframe的创建9.2.3Dataframe的常用r/>9.3Dataset9.4Spark SQL编程9.4.1Dataframer/>9.4.2Spark SQL 读写MySQL数据库9.4.3Spark SQL 读写Hive9.5本章小结第10章 Spark Streaming实时计算框架10.1Spark Streaming概述10.1.1流数据和流计算10.1.2Spark Streaming简介10.1.3DStream简介10.2DStream编程10.2.1DStream转换r/>10.2.2DStream输出操作相关的方法10.3DStream编程示例10.3.1DStream编程基本步骤——文件流10.3.2无状态转换r/>10.3.3有状态转换r/>10.3.4输出r/>10.4本章小结第11章Spark Streaming与Flume、Kafka的整合11.1Flume简介及安装11.1.1Flume简介11.1.2Flume的安装11.2Kafka简介及安装11.2.1Kafka简介11.2.2Kafka的安装11.3Flume与Kafka的区别和侧11.4Spark Streaming与Flume、Kafka的整合与开发11.5本章小结第12章Spark MLlib机器学习12.1机器学概念12.1.1机器学定义12.1.2机器学分类12.2MLlib简介12.3Spark MLlib的数据类型12.3.1本地向量12.3.2标注点12.3.3本地矩阵12.4Spark MLlib机器学习示例12.4.1特征抽取——TFIDF12.4.2分类与回归——线回归12.4.3分类与回归——逻辑回归12.4.4协同过滤—12.5本章小结第13章实战案例——分布式优惠券后台应用系统 13.1系统简介13.2整体架构13.3表结构设计13.4系统实现13.4.1商户投放子系统13.4.2用户消费子系统13.5系统运行测试13.5.1启动系统13.5.2商户投放子系统测试13.5.3用户消费子系统测试13.6本章小结第14章实战案例——新闻话题实时统计分析系统14.1系统简介14.2系体架构14.3表结构设计14.4系统实现14.4.1模拟日志生成程序14.4.2Flume配置14.4.3配置Kafka14.4.4Spark Streaming开发14.4.5WebSocket和前端界面开发14.5系统运行测试14.6本章小结参考文献

点赞 0举报收藏 0