大数据技术入门(第2版):串讲大数据常用技术,架构大数据思维模式

本书特色

[

目前国内大数据市场继续保持高速的发展态势,作者在与地方政府、证券金融公司的项目合作中发现,他们对大数据技术很感兴趣,并希望从大数据技术、采集、存储、访问、安全、分析与开发等方面得到指导和帮助。因此编写了这本大数据技术的入门书。 本书共12章,以Hadoop和Spark框架为线索,比较全面地介绍了Hadoop技术、Spark技术、大数据存储、大数据访问、大数据采集、大数据管理、大数据分析、大数据开发、大数据环境自动化部署(Docker和K8s)等内容。 本书适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员、IT经理、CTO、CIO等快速学习大数据技术。本书也可以作为高等院校和培训学校相关专业的培训教材。

]

内容简介

[

本书以Hadoop和Spark框架为线索,重点介绍了Hadoop技术、Spark技术、大数据存储、大数据访问、大数据采集、大数据管理、大数据分析、大数据开发、大数据环境自动化部署等内容,使读者对大数据技术有个比较全面的了解。

]

作者简介

[

杨正洪,毕业于美国State University of New York at Stony Brook,在美国硅谷从事AI和大数据相关研发工作 10 多年,华中科技大学和中国地质大学客座教授,湖北省 2013 年海外引进人才,拥有多项国家专利。参与了大数据和人工智能的国家标准的制定,在 2016 年参与了公安部主导的“信息安全技术:大数据平台安全管理产品安全技术要求”的国家标准制定。作者还是中关村海外智库专家顾问和住建部中规院专家顾问,担任了在美上市公司 CTO、北京某国企 CIO 和上海某国企高级副总裁等职。多年从事人工智能与大数据技术的工作,出版了《智慧城市》等多本书籍。

]

目录

第1章 大数据时代 11.1 什么是大数据 11.1.1 四大特征 21.1.2 数据监管(Data Governance) 31.1.3 数据质量 41.1.4 大数据分析 41.1.5 大数据平台架构 51.2 大数据与云计算的关系 61.2.1 云计算产品概述 61.2.2 虚拟服务器 71.2.3 云存储 111.3 Hadoop和云平台的应用实例 121.3.1 云平台层面配置 121.3.2 大数据平台层面配置 141.4 数据湖(Data Lake) 161.5 企业如何走向大数据 171.5.1 业务价值维度 181.5.2 数据维度 181.5.3 现有IT环境和成本维度 191.5.4 数据治理维度 20第2章 大数据软件框架 212.1 Hadoop框架 212.1.1 HDFS(分布式文件系统) 222.1.2 MapReduce(分布式计算框架) 232.1.3 YARN(集群资源管理器) 282.2 Spark(内存计算框架) 302.2.1 Spark SQL 312.2.2 Spark Streaming 322.3 实时流处理框架 342.4 云端消息队列 342.5 框架的选择 352.6 Hadoop发行版 362.7 Mac上安装Hadoop 372.7.1 在Mac上安装Hadoop 372.7.2 安装MySQL和Hive 412.8 Linux上安装Hadoop 442.8.1 配置Java环境 452.8.2 安装ntp和Python 472.8.3 安装和配置openssl 472.8.4 配置SSH无密码访问 472.8.5 安装Ambari和HDP 482.8.6 启动和停止服务 522.9 AWS云平台上安装Hadoop 54第3章 大数据集群 573.1 集群实例分析 573.2 YARN 673.2.1 架构组成 683.2.2 YARN执行流程 713.3 资源的调度器 753.3.1 Capacity Scheduler 763.3.2 Fair Scheduler 783.3.3 资源调度实例分析 813.3.4 内存和CPU资源调度 843.4 深入研究Resource Manager 883.5 集群配置文件总览 913.5.1 yarn-site.xml 913.5.2 mapred-site.xml 943.6 自动伸缩(Auto Scaling)集群 973.7 迁移Hadoop集群 973.8 增加Instance 99第4章 大数据存储:文件系统和云存储 1004.1 HDFS shell命令 1004.2 配置HDFS 1024.2.1 配置文件 1024.2.2 多节点配置 1034.3 HDFS API编程 1044.3.1 读取HDFS文件内容 1054.3.2 写HDFS文件内容 1084.3.3 WebHDFS 1084.4 HDFS API总结 1104.4.1 Configuration类 1104.4.2 FileSystem抽象类 1114.4.3 Path类 1114.4.4 FSDataInputStream类 1114.4.5 FSDataOutputStream类 1124.4.6 IOUtils类 1124.4.7 FileStatus类 1124.4.8 FsShell类 1124.4.9 ChecksumFileSystem抽象类 1124.4.10 其他的HDFS API实例 1134.4.11 综合实例 1154.5 HDFS文件格式 1184.5.1 SequenceFile 1184.5.2 TextFile(文本格式) 1184.5.3 RCFile 1184.5.4 Avro 1204.6 云存储S3 1204.6.1 S3基本概念 1214.6.2 S3管理控制台 1224.6.3 S3 CLI 1264.6.4 S3 SDK 1274.6.5 分区 1294.6.6 与EBS的比较 1294.6.7 与Glacier的比较 129第5章 大数据存储:数据库 1305.1 NoSQL 1305.2 HBase概述 1315.2.1 HBase表结构 1325.2.2 HBase系统架构 1355.2.3 启动并操作HBase数据库 1365.2.4 HBase Shell工具 1395.3 HBase编程 1425.3.1 增删改查API 1425.3.2 过滤器 1465.3.3 计数器 1495.3.4 原子操作 1495.3.5 管理API 1495.4 其他NoSQL数据库 1515.4.1 Cassandra 1515.4.2 Impala 1515.4.3 DynamoDB 1515.4.4 Redshift 1515.5 云数据库 1525.5.1 什么是RDS 1525.5.2 创建云数据库 1525.5.3 查看云数据库信息 1565.5.4 何时使用云端数据库 159第6章 大数据访问:SQL引擎层 1606.1 Phoenix 1616.1.1 安装和配置Phoenix 1616.1.2 在Eclipse上开发Phoenix程序 1656.1.3 Phoenix SQL工具 1696.1.4 Phoenix SQL语法 1706.2 Hive 1716.2.1 Hive架构 1726.2.2 安装Hive 1736.2.3 Hive CLI 1756.2.4 Hive数据类型 1756.2.5 Hive文件格式 1776.2.6 Hive表定义 1796.2.7 Hive加载数据 1836.2.8 Hive查询数据 1846.2.9 Hive UDF 1866.2.10 Hive视图 1886.2.11 HiveServer2 1896.2.12 hive-site.xml需要的配置 1956.2.13 HBase集成 2006.2.14 XML和JSON数据 2006.2.15 使用TEZ 2016.2.16 Hive MetaStore 2036.2.17 综合示例 2046.3 Pig 2066.3.1 Pig语法 2076.3.2 Pig和Hive的使用场景之比较 2106.4 ElasticSearch(全文搜索引擎) 2116.4.1 全文索引的基础知识 2116.4.2 安装和配置ElasticSearch 2136.4.3 ElasticSearch API 2156.5 Presto 217第7章 大数据采集和导入 2187.1 Flume 2207.1.1 Flume架构 2207.1.2 Flume事件 2217.1.3 Flume源 2217.1.4 Flume拦截器(Interceptor) 2227.1.5 Flume通道选择器(Channel Selector) 2237.1.6 Flume通道 2247.1.7 Flume接收器 2257.1.8 负载均衡和单点失败 2267.1.9 Flume监控管理 2277.1.10 Flume实例 2277.2 Kafka 2297.2.1 Kafka架构 2297.2.2 Kafka与JMS的异同 2307.2.3 Kafka性能考虑 2317.2.4 消息传送机制 2317.2.5 Kafka和Flume的比较 2327.3 Sqoop 2327.3.1 从数据库导入HDFS 2337.3.2 增量导入 2357.3.3 将数据从Oracle导入Hive 2357.3.4 将数据从Oracle导入HBase 2357.3.5 导入所有表 2367.3.6 从HDFS导出数据 2367.3.7 数据验证 2377.3.8 其他Sqoop功能 2377.4 Storm 2387.4.1 Storm基本概念 2387.4.2 Spout 2407.4.3 Bolt 2417.4.4 拓扑结构 2437.4.5 Storm总结 2447.5 Amazon Kinesis 2457.6 其他工具 2467.6.1 Embulk 2467.6.2 Fluentd 247第8章 大数据安全管控 2508.1 数据主权和合规性 2508.2 云端安全 2518.2.1 身份验证和访问权限 2518.2.2 角色 2538.2.3 虚拟网络 2548.2.4 安全组 2558.3 云端监控 2568.3.1 跟踪和审计 2568.3.2 监控 2578.3.3 基于Datadog的监控 2598.4 云端备份和恢复 2628.5 大数据安全 2628.5.1 Kerberos 2638.5.2 Apache Ranger 2638.5.3 应用端安全 267第9章 大数据快速处理平台:Spark 2689.1 Spark框架 2689.1.1 安装和配置Spark 2699.1.2 Scala 2709.2 Spark Shell 2719.3 Spark编程 2739.3.1 编写Spark API程序 2749.3.2 使用sbt编译并打成JAR包 2749.3.3 运行程序 2759.4 RDD 2769.4.1 RDD算子和RDD依赖关系 2779.4.2 RDD转换操作 2789.4.3 RDD行动(Action)操作 2799.4.4 RDD控制操作 2809.4.5 RDD实例 2809.5 Spark SQL 2829.5.1 DataFrame 2839.5.2 RDD转化为DataFrame 2879.5.3 JDBC数据源 2899.5.4 Hive数据源 2899.6 Spark Streaming 2909.6.1 DStream编程模型 2919.6.2 DStream操作 2939.6.3 性能考虑 2959.6.4 容错能力 296第10章 大数据分析 29710.1 数据科学 29810.1.1 探索性数据分析 29910.1.2 描述统计 30010.1.3 数据可视化 30010.2 预测分析 30310.2.1 预测分析实例 30310.2.2 回归(Regression)分析预测法 30410.3 机器学习 30510.3.1 机器学习的定义 30610.3.2 机器学习分类 30710.3.3 机器学习算法 30810.3.4 机器学习框架 31010.4 算法 31210.4.1 分类算法 31310.4.2 预测算法 31310.4.3 聚类算法 31410.4.4 关联分析 31510.4.5 决策树 31710.4.6 异常值分析算法 32010.4.7 协同过滤(推荐引擎)算法 32010.5 大数据分析总体架构 32110.5.1 大数据平台和大数据分析的关系 32110.5.2 大数据平台的核心功能 32210.5.3 DMP 32310.5.4 CDP 32410.6 微服务 32410.6.1 启动和停止Consul 32610.6.2 服务注册 32710.6.3 查询服务 32910.6.4 服务状态检查 329第11章 大数据环境自动化部署: Docker和Kubernetes 33111.1 什么是Docker? 33211.1.1 虚拟机 33211.1.2 Linux容器 33311.1.3 Docker的由来 33311.1.4 Docker的用途 33311.1.5 Docker和虚拟机的区别 33411.2 镜像文件 33511.3 Docker安装 33511.4 Dockerfile文件 33611.4.1 什么是Dockerfile 33611.4.2 使用Dockerfile 33811.4.3 发布镜像文件 33811.4.4 仓库(Repository) 33911.5 Service(服务) 34011.5.1 yml文件 34011.5.2 部署服务 34111.5.3 伸缩(Scale)应用 34111.6 Swarm 34111.6.1 什么是Swarm集群 34111.6.2 设置Swarm 34211.6.3 在Swarm集群上部署应用 34311.7 Stack 34411.8 Kubernetes 34611.8.1 集群 34711.8.2 Pod 34711.8.3 Node(节点) 34711.8.4 Kubernetes Master 34811.8.5 Replication Controller 34811.8.6 Service 348第12章 大数据开发管理 34912.1 CI/CD(持续集成/持续发布) 34912.1.1 CI 34912.1.2 CD 35012.2 代码管理工具GitHub 35112.2.1 仓库(Repository) 35112.2.2 分支(Branch) 35212.2.3 提交(Commit)和请求合并(Pull request) 35212.2.4 开源代码的操作 35412.2.5 GitHub使用实例 35512.3 项目管理JIRA 36212.3.1 敏捷(Agile)开发和Scrum模式 36212.3.2 Project(项目) 36412.3.3 Issue(问题) 36512.3.4 Sprint(冲刺) 36712.3.5 Backlog(待办事项列表) 36812.3.6 Priority(事项优先级) 36812.3.7 状态和流程 36812.3.8 JIRA常用报表 36912.3.9 JIRA的主要功能总结 37212.4 项目构建工具Maven 37312.4.1 pom.xml 37312.4.2 安装Maven 37412.4.3 Maven仓库 37412.4.4 Maven Java项目结构 37512.4.5 命令列表 37612.5 大数据软件测试 37912.5.1 JUnit 37912.5.2 Allure 380附录1 数据量的单位级别 382附录2 AWS EC2创建步骤 383附录3 分布式监控系统Ganglia 385附录4 auth-ssh脚本 386

封面

大数据技术入门(第2版):串讲大数据常用技术,架构大数据思维模式

书名:大数据技术入门(第2版):串讲大数据常用技术,架构大数据思维模式

作者:杨正洪

页数:未知

定价:¥79.0

出版社:清华大学出版社

出版日期:2020-02-01

ISBN:9787302547969

PDF电子书大小:143MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注