HADOOP大数据技术开发实战

本书特色

[

本书以Hadoop及其周边框架为主线,介绍了整个Hadoop生态系统主流的大数据开发技术。全书共16章,第1章讲解了VMware中CentOS 7操作系统的安装;第2章讲解了大数据开发之前对操作系统集群环境的配置;第3~16章讲解了Hadoop生态系统各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和数据实时处理系统Flume、Kafka、Storm、Spark以及分布式搜索系统Elasticsearch等的基础知识、架构原理、集群环境搭建,同时包括常用的Shell命令、API操作、源码剖析,并通过实际案例加深对各个框架的理解与应用。通过阅读本书,读者即使没有任何大数据基础,也可以对照书中的步骤成功搭建属于自己的大数据集群并独立完成项目开发。 本书可作为Hadoop新手入门的指导书,也可作为大数据开发人员的随身手册以及大数据从业者的参考用书。

]

内容简介

[

本书以Hadoop及其周边框架为主线,介绍了整个Hadoop生态系统主流的大数据开发技术。全书共16章,章讲解了VMware中CentOS 7操作系统的安装;第2章讲解了大数据开发之前对操作系统集群环境的配置;第3~16章讲解了Hadoop生态系统各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和数据实时处理系统Flume、Kafka、Storm、Spark以及分布式搜索系统Elasticsearch等的基础知识、架构原理、集群环境搭建,同时包括常用的Shell命令、API操作、源码剖析,并通过实际案例加深对各个框架的理解与应用。通过阅读本书,读者即使没有任何大数据基础,也可以对照书中的步骤成功搭建属于自己的大数据集群并独立完成项目开发。
本书可作为Hadoop新手入门的指导书,也可作为大数据开发人员的随身手册以及大数据从业者的参考用书。

]

作者简介

[

张伟洋,毕业于中国地质大学计算机科学与技术专业,先后就职于知名互联网公司百度、慧聪网,任Java高级软件工程师,互联网旅游公司任软件研发事业部技术经理。目前供职于青岛英谷教育科技股份有限公司,任大数据项目讲师,为数十所高校先后举行多次大数据专题讲座,对Hadoop及周边框架ZooKeeper、Hive、HBase、Storm、Spark等有深入的研究。高等院校云计算与大数据专业课改教材《云计算与大数据概论》《大数据开发与应用》的主要编写者,百度文库、百度阅读签约作者。

]

目录

目 录第1章 VMware中安装CentOS 7 11.1 下载CENTOS 7镜像文件 11.2 新建虚拟机 51.3 安装操作系统 9第2章 CentOS 7集群环境配置 162.1 系统环境配置 162.1.1 新建用户 172.1.2 修改用户权限 172.1.3 关闭防火墙 172.1.4 设置固定IP 182.1.5 修改主机名 222.1.6 新建资源目录 232.2 安装JDK 232.3 克隆虚拟机 252.4 配置主机IP映射 29第3章 Hadoop 313.1 HADOOP简介 313.1.1 Hadoop生态系统架构 323.1.2 Hadoop 1.x与2.x的架构对比 333.2 YARN基本架构及组件 343.3 YARN工作流程 373.4 配置集群各节点SSH无密钥登录 383.4.1 无密钥登录原理 383.4.2 无密钥登录操作步骤 393.5 搭建HADOOP 2.X分布式集群 41第4章 HDFS 484.1 HDFS简介 484.1.1 设计目标 494.1.2 总体架构 494.1.3 主要组件 504.1.4 文件读写 534.2 HDFS命令行操作 544.3 HDFS WEB界面操作 574.4 HDFS JAVA API操作 594.4.1 读取数据 594.4.2 创建目录 614.4.3 创建文件 624.4.4 删除文件 634.4.5 遍历文件和目录 644.4.6 获取文件或目录的元数据 654.4.7 上传本地文件 664.4.8 下载文件到本地 66第5章 MapReduce 685.1 MAPREDUCE简介 685.1.1 设计思想 695.1.2 任务流程 705.1.3 工作原理 715.2 MAPREDUCE程序编写步骤 745.3 案例分析:单词计数 765.4 案例分析:数据去重 825.5 案例分析:求平均分 865.6 案例分析:二次排序 895.7 使用MRUNIT测试MAPREDUCE程序 97第6章 ZooKeeper 1006.1 ZOOKEEPER简介 1006.1.1 应用场景 1016.1.2 架构原理 1016.1.3 数据模型 1026.1.4 节点类型 1036.1.5 Watcher机制 1036.1.6 分布式锁 1056.2 ZOOKEEPER安装配置 1066.2.1 单机模式 1066.2.2 伪分布模式 1086.2.3 集群模式 1096.3 ZOOKEEPER命令行操作 1126.4 ZOOKEEPER JAVA API操作 1146.4.1 创建Java工程 1146.4.2 创建节点 1156.4.3 修改数据 1186.4.4 获取数据 1186.4.5 删除节点 1236.5 案例分析:监听服务器动态上下线 124第7章 HDFS与YARN HA 1297.1 HDFS HA搭建 1297.1.1 架构原理 1307.1.2 搭建步骤 1317.1.3 结合ZooKeeper进行HDFS自动故障转移 1377.2 YARN HA搭建 1427.2.1 架构原理 1427.2.2 搭建步骤 142第8章 HBase 1478.1 什么是HBASE 1478.2 HBASE基本结构 1488.3 HBASE数据模型 1498.4 HBASE集群架构 1518.5 HBASE安装配置 1538.5.1 单机模式 1538.5.2 伪分布模式 1558.5.3 集群模式 1568.6 HBASE SHELL命令操作 1608.7 HBASE JAVA API操作 1648.7.1 创建Java工程 1648.7.2 创建表 1648.7.3 添加数据 1668.7.4 查询数据 1688.7.5 删除数据 1698.8 HBASE过滤器 1708.9 案例分析:HBASE MAPREDUCE数据转移 1748.9.1 HBase不同表间数据转移 1748.9.2 HDFS数据转移至HBase 1808.10 案例分析:HBASE数据备份与恢复 183第9章 Hive 1859.1 什么是HIVE 1859.1.1 数据单元 1869.1.2 数据类型 1879.2 HIVE架构体系 1899.3 HIVE三种运行模式 1909.4 HIVE安装配置 1919.4.1 内嵌模式 1929.4.2 本地模式 1959.4.3 远程模式 1989.5 HIVE常见属性配置 2009.6 BEELINE CLI的使用 2019.7 HIVE数据库操作 2059.8 HIVE表操作 2089.8.1 内部表 2099.8.2 外部表 2139.8.3 分区表 2159.8.4 分桶表 2199.9 HIVE查询 2239.9.1 SELECT子句查询 2249.9.2 JOIN连接查询 2309.10 其他HIVE命令 2339.11 HIVE元数据表结构分析 2359.12 HIVE自定义函数 2379.13 HIVE JDBC操作 2399.14 案例分析:HIVE与HBASE整合 2429.15 案例分析:HIVE分析搜狗用户搜索日志 246第10章 Sqoop 25110.1 什么是SQOOP 25110.1.1 Sqoop基本架构 25210.1.2 Sqoop开发流程 25210.2 使用SQOOP 25310.3 数据导入工具 25410.4 数据导出工具 25910.5 SQOOP安装与配置 26110.6 案例分析:将MYSQL表数据导入到HDFS中 26210.7 案例分析:将HDFS中的数据导出到MYSQL中 26310.8 案例分析:将MYSQL表数据导入到HBASE中 264第11章 Kafka 26711.1 什么是KAFKA 26711.2 KAFKA架构 26811.3 主题与分区 26911.4 分区副本 27111.5 消费者组 27311.6 数据存储机制 27411.7 集群环境搭建 27611.8 命令行操作 27811.8.1 创建主题 27811.8.2 查询主题 27911.8.3 创建生产者 28011.8.4 创建消费者 28011.9 JAVA API操作 28111.9.1 创建Java工程 28111.9.2 创建生产者 28111.9.3 创建消费者 28311.9.4 运行程序 28511.10 案例分析:KAFKA生产者拦截器 287第12章 Flume 29412.1 什么是FLUME 29412.2 架构原理 29512.2.1 单节点架构 29512.2.2 组件介绍 29612.2.3 多节点架构 29712.3 安装与简单使用 29912.4 案例分析:日志监控(一) 30212.5 案例分析:日志监控(二) 30412.6 拦截器 30612.6.1 内置拦截器 30712.6.2 自定义拦截器 31012.7 选择器 31312.8 案例分析:拦截器和选择器的应用 31512.9 案例分析:FLUME与KAFKA整合 319第13章 Storm 32213.1 什么是STORM 32213.2 STORM TOPOLOGY 32313.3 STORM集群架构 32413.4 STORM流分组 32613.5 STORM集群环境搭建 32913.6 案例分析:单词计数 33213.6.1 设计思路 33213.6.2 代码编写 33313.6.3 程序运行 33913.7 案例分析:STORM与KAFKA整合 341第14章 Elasticsearch 34714.1 什么是ELASTICSEARCH 34714.2 基本概念 34814.2.1 索引、类型和文档 34814.2.2 分片和副本 34814.2.3 路由 34914.3 集群架构 35014.4 集群环境搭建 35214.5 KIBANA安装 35514.6 REST API 35714.6.1 集群状态API 35714.6.2 索引API 35814.6.3 文档API 36014.6.4 搜索API 36314.6.5 Query DSL 36514.7 HEAD插件安装 37114.8 JAVA API操作:员工信息 375第15章 Scala 37915.1 什么是SCALA 37915.2 安装SCALA 38015.2.1 Windows中安装Scala 38015.2.2 CentOS 7中安装Scala 38115.3 SCALA基础 38215.3.1 变量声明 38215.3.2 数据类型 38315.3.3 表达式 38515.3.4 循环 38615.3.5 方法与函数 38815.4 集合 39115.4.1 数组 39115.4.2 List 39315.4.3 Map映射 39415.4.4 元组 39615.4.5 Set 39615.5 类和对象 39815.5.1 类的定义 39815.5.2 单例对象 39915.5.3 伴生对象 39915.5.4 get和set方法 40015.5.5 构造器 40215.6 抽象类和特质 40415.6.1 抽象类 40415.6.2 特质 40615.7 使用ECLIPSE创建SCALA项目 40815.7.1 安装Scala for Eclipse IDE 40815.7.2 创建Scala项目 40915.8 使用INTELLIJ IDEA创建SCALA项目 41015.8.1 IDEA中安装Scala插件 41015.8.2 创建Scala项目 414第16章 Spark 41616.1 SPARK概述 41616.2 SPARK主要组件 41716.3 SPARK运行时架构 41916.3.1 Spark Standalone模式 41916.3.2 Spark On YARN模式 42116.4 SPARK集群环境搭建 42316.4.1 Spark Standalone模式 42316.4.2 Spark On YARN模式 42516.5 SPARK HA搭建 42616.6 SPARK应用程序的提交 43016.7 SPARK SHELL的使用 43316.8 SPARK RDD 43516.8.1 创建RDD 43516.8.2 RDD算子 43616.9 案例分析:使用SPARK RDD实现单词计数 44116.10 SPARK SQL 44816.10.1 DataFrame和Dataset 44816.10.2 Spark SQL基本使用 44916.11 案例分析:使用SPARK SQL实现单词计数 45216.12 案例分析:SPARK SQL与HIVE整合 45416.13 案例分析:SPARK SQL读写MYSQL 457

封面

HADOOP大数据技术开发实战

书名:HADOOP大数据技术开发实战

作者:张伟洋

页数:0

定价:¥99.0

出版社:清华大学出版社

出版日期:2019-10-01

ISBN:9787302534020

PDF电子书大小:98MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注