大数据库

本书特色

[

本书详细介绍大数据环境下的常用的数据库和相关工具,包括HBase、Hive、Impala、Spark、Spark SQL、键值数据库和流式数据库等,给出了详细的工作机理和应用方法,并给出完整的实践案例和代码。

]

作者简介

[

  刘鹏,清华大学博士,解放军理工大学教授、学科带头人,中国云计算专家委员会委员。主要研究方向为信息网格和云计算,完成科研课题18项,发表论文70余篇,获部级科技进步奖6项。曾夺得国际计算机排序比赛冠军,并二次夺得全国高校科技比赛最高奖,获“全军十大学习成才标兵”、“南京十大杰出青年”和“清华大学学术新秀”等称号。2002年首倡的“网格计算池”和2003年研发的“反垃圾邮件网格”分别为云计算和云安全的前身。创办了知名的中国网格和中国云计算网站

]

目录

目 录 第1章 大数据库概述 11.1 传统关系型数据库面临的问题 11.2 大数据库技术 21.2.1 列式数据库 21.2.2 内存数据库 21.2.3 键值数据库 31.2.4 流式数据库 31.3 大数据SQL 31.4 当前主流大数据SQL简介 41.4.1 Hive 41.4.2 Impala 51.4.3 Shark 61.4.4 Spark SQL 71.5 本章总结 8习题 9参考文献 9第2章 分布式数据库HBase 102.1 HBase基础 102.1.1 体系架构 102.1.2 数据模型 152.2 HBase操作简介 172.2.1 HBase接口简介 172.2.2 HBase Shell实战 172.2.3 HBase API 202.3 HBase实战 212.3.1 实战HBase之综例 212.3.2 实战HBase之使用MapReduce构建索引 22习题 26参考文献 27第3章 数据仓库工具Hive 283.1 Hive简介 283.1.1 工作原理 283.1.2 体系架构 293.1.3 计算模型 303.1.4 Hive部署模式 313.2 Hive的使用 323.2.1 Hive的数据类型 323.2.2 Hive接口汇总 323.3 实战Hive Shell 333.3.1 DDL操作 333.3.2 DML操作 343.3.3 SQL操作 343.4 实战Hive之复杂语句 353.5 实战Hive之综合示例 373.6 实战Hive API接口 383.6.1 UDF编程示例 383.6.2 UDAF编程示例 39习题 40参考文献 41第4章 大数据查询系统Impala 424.1 Impala简介 424.1.1 Impala的起源 424.1.2 Impala的特点 424.1.3 Impala 前辈及竞争对手 434.2 Impala工作原理 434.2.1 Impala 设计目标 444.2.2 Impala 服务器组件 444.2.3 Impala 编程特点 454.2.4 Impala在Hadoop生态圈中的生存之道 454.3 Impala环境搭建 464.3.1 Impala 安装前的考虑 474.3.2 Impala 安装途径与安装示范 504.4 Impala操作实例 614.4.1 Impala 基本操作 624.4.2 Impala 数据库操作 62习题 66参考文献 66第5章 内存数据库Spark 675.1 Spark简介 675.1.1 Spark的引入 675.1.2 Spark生态系统BDAS 695.1.3 Spark系统架构 755.1.4 Spark工作流程 775.1.5 Spark应用案例 785.2 Spark计算模型 805.2.1 Spark程序模型 815.2.2 弹性分布式数据集(RDD) 815.2.3 Spark算子 845.3 Spark工作机制 855.3.1 Spark运行机制 855.3.2 Spark调度机制 875.3.3 Spark I/O机制 935.3.4 Spark通信机制 945.3.5 Spark容错机制 975.3.6 Spark Shuffle机制 1015.4 Scala快速入门 1025.4.1 Scala解释器 1035.4.2 变量 1035.4.3 函数 1045.4.4 编写Scala脚本 1055.4.5 while 配合if实现循环 1055.4.6 foreach和 for 来实现迭代 1055.4.7 类型参数化数组 1065.4.8 Lists 1075.4.9 使用元组(Tuples) 1085.4.10 Sets和Maps 1085.4.11 函数编程风格 1095.4.12 读取文件 1105.5 Spark环境部署 1105.5.1 安装与配置Spark 1105.5.2 Intellij IDEA构建Spark开发环境 1185.5.3 SBT构建Spark程序 1215.5.4 编译Spark程序 1225.5.5 远程调试Spark程序 1235.5.6 生成Spark部署包 1245.6 Spark 编程案例 1245.6.1 WordCount 1255.6.2 Top K 1275.6.3 倒排索引 128习题 130参考文献 131第6章 Spark SQL 1326.1 Spark SQL简介 1326.1.1 Spark SQL发展历程 1326.1.2 Spark SQL 架构 1336.2 Spark SQL编程基础 1376.2.1 数据类型及表达式 1376.2.2 Spark SQL查询引擎Catalyst 1386.2.3 SQL DSL API 1426.2.4 Spark SQL ThriftServer和CLI 1446.2.5 Spark SQL常用操作 1466.3 Spark SQL实战 1516.3.1 Spark SQL开发环境搭建 1516.3.2 Spark SQL使用入门 166习题 173参考文献 173第7章 键值数据库 1747.1 概述 1747.1.1 键值存储 1747.1.2 键值数据库 1767.2 Redis 1787.2.1 简介 1787.2.2 Redis数据服务及集群技术 1807.2.3 Redis安装 1867.2.4 Redis数据操作 1877.2.5 案例:网站访问历史记录查询 1937.3 Memcached 1987.3.1 简介 1987.3.2 Memcached缓存技术 1987.3.3 Memcached安装 2007.3.4 Memcached数据操作 2037.3.5 Memcached分布式技术 2067.3.6 案例:论坛帖子信息缓存 2077.4 典型应用及局限 2087.4.1 典型应用 2097.4.2 键值数据库局限 211习题 211参考文献 212第8章 流式数据库 2138.1 流式计算模型 2138.1.1 流式计算概念 2138.1.2 流式计算数据特点 2158.1.3 流式计算典型应用 2168.1.4 典型流式计算平台 2168.2 流式计算关键技术 2188.2.1 计算拓扑 2188.2.2 消息传递 2208.2.3 高可用性 2228.2.4 语义保障 2248.2.5 其他关键技术 2258.3 Storm平台 2258.3.1 Storm简介 2258.3.2 Storm原理 2278.3.3 Storm部署 2378.3.4 案例:Maven环境下的Storm编程 2428.4 Spark Streaming平台 2468.4.1 Spark Streaming简介 2478.4.2 Spark Streaming原理 2488.4.3 案例:集群环境下的Spark Streaming编程 249习题 261参考文献 262第9章 数据应用托管平台Docker 2639.1 Docker技术简介 2639.1.1 Docker是什么 2639.1.2 Docker的架构和流程 2659.2 Docker的优势和局限 2669.2.1 Docker的优势 2669.2.2 Docker的局限性 2689.3 基于Docker的大数据系统设计 2709.3.1 分布式Docker网络环境的搭建 2709.3.2 Docker集群管理系统:Kubernetes 271习题 277参考文献 278

封面

大数据库

书名:大数据库

作者:刘鹏

页数:未知

定价:¥49.0

出版社:电子工业出版社

出版日期:2017-06-01

ISBN:9787121316197

PDF电子书大小:80MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注