Spark大数据分析-核心概念.技术及实践

本书特色

[

本书是关于大数据和Spark的一个简明手册。它将助你学习如何用Spark来完成很多大数据分析任务,其中覆盖了高效利用Spark所需要知道的重要主题:如何使用SparkShell进行交互式数据分析、如何编写Spark应用、如何在Spark中对大规模数据进行交互分析、如何使用SparkStreaming处理高速数据流、如何使用Spark进行机器学习、如何使用Spark进行图处理、如何使用集群管理员部署Spark、如何监控Spark应用等。本书还对其他配合Spark一起使用的大数据技术进行了介绍,包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本书也对机器学习和图的概念进行了介绍。

]

目录

Contents 目  录译者序前言致谢第1章 大数据技术一览11.1 Hadoop21.1.1 HDFS31.1.2 MapReduce51.1.3 Hive51.2 数据序列化61.2.1 Avro61.2.2 Thrift61.2.3 Protocol Buffers71.2.4 SequenceFile71.3 列存储71.3.1 RCFile81.3.2 ORC81.3.3 Parquet91.4 消息系统91.4.1 Kafka101.4.2 ZeroMQ111.5 NoSQL121.5.1 Cassandra131.5.2 HBase131.6 分布式SQL查询引擎141.6.1 Impala141.6.2 Presto141.6.3 Apache Drill151.7 总结15第2章 Scala编程162.1 函数式编程162.1.1 函数172.1.2 不可变数据结构182.1.3 一切皆表达式192.2 Scala基础192.2.1 起步202.2.2 基础类型202.2.3 变量212.2.4 函数212.2.5 类242.2.6 单例242.2.7 样本类252.2.8 模式匹配252.2.9 操作符262.2.10 特质262.2.11 元组272.2.12 Option类型272.2.13 集合282.3 一个单独的Scala应用程序322.4 总结32第3章 Spark Core333.1 概述333.1.1 主要特点333.1.2 理想的应用程序363.2 总体架构373.2.1 worker373.2.2 集群管理员383.2.3 驱动程序383.2.4 执行者383.2.5 任务383.3 应用运行383.3.1 术语383.3.2 应用运行过程393.4 数据源393.5 API403.5.1 SparkContext403.5.2 RDD413.5.3 创建RDD423.5.4 RDD操作433.5.5 保存RDD523.6 惰性操作533.7 缓存543.7.1 RDD的缓存方法553.7.2 RDD缓存是可容错的563.7.3 缓存内存管理563.8 Spark作业563.9 共享变量573.9.1 广播变量573.9.2 累加器583.10 总结59第4章 使用Spark shell进行交互式数据分析604.1 起步604.1.1 下载604.1.2 解压614.1.3 运行614.2 REPL命令624.3 把Spark shell当成Scala shell使用624.4 数值分析634.5 日志分析644.6 总结68第5章 编写Spark应用695.1 Spark中的Hello World695.2 编译并运行应用725.2.1 sbt725.2.2 编译代码735.2.3 运行应用735.3 监控应用755.4 调试应用755.5 总结76第6章 Spark Streaming776.1 Spark Streaming简介786.1.1 Spark Streaming是一个Spark类库786.1.2 总体架构786.1.3 数据流来源786.1.4 接收器796.1.5 目的地796.2 API796.2.1 StreamingContext806.2.2 Spark Streaming应用基本结构826.2.3 DStream826.2.4 创建DStream836.2.5 处理数据流846.2.6 输出操作886.2.7 窗口操作916.3 一个完整的Spark Streaming应用936.4 总结98第7章 Spark SQL997.1 Spark SQL简介997.1.1 和其他Spark库集成1007.1.2 可用性1007.1.3 数据源1007.1.4 数据处理接口1007.1.5 与Hive的互操作性1017.2 性能1017.2.1 磁盘I/O1017.2.2 分区1027.2.3 列存储1027.2.4 内存中的列式缓存1027.2.5 行跳过1027.2.6 谓词下推1027.2.7 查询优化1037.3 应用1047.3.1 ETL1047.3.2 数据可视化1047.3.3 分布式JDBC/ODBC SQL查询引擎1057.3.4 数据仓库1057.4 API1067.4.1 关键抽象1067.4.2 创建DataFrame1097.4.3 在程序中使用SQL/HiveQL处理数据1147.4.4 使用DataFrame API处理数据1157.4.5 保存DataFrame1317.5 内置函数1337.5.1 聚合操作1347.5.2 集合操作1347.5.3 日期/时间1347.5.4 数学1357.5.5 字符串1357.5.6 窗口1357.6 UDF和UDAF1357.7 一个交互式分析的例子1357.8 使用Spark SQL JDBC服务器进行交互式分析1427.9 总结145第8章 使用Spark进行机器学习1468.1 机器学习简介1468.1.1 特征1478.1.2 标签1478.1.3 模型1488.1.4 训练数据1488.1.5 测试数据1498.1.6 机器学习应用1498.1.7 机器学习算法1518.1.8 超参数1608.1.9 模型评价1608.1.10 机器学习的主要步骤1628.2 Spark机器学习库1628.3 MLlib概览1638.3.1 与其他Spark库集成1638.3.2 统计工具1638.3.3 机器学习算法1638.4 MLlib API1648.4.1 数据类型1648.4.2 算法和模型1668.4.3 模型评价1818.5 MLlib示例应用1848.5.1 数据集1848.5.2 目标1848.5.3 代码1848.6 Spark ML1868.6.1 ML数据集1878.6.2 Transformer1878.6.3 Estimator1878.6.4 Pipeline1888.6.5 PipelineModel1888.6.6 Evaluator1888.6.7 网格搜索1898.6.8 CrossValidator1898.7 Spark ML示例应用1898.7.1 数据集1908.7.2 目标1908.7.3 代码1908.8 总结195第9章 使用Spark进行图处理1969.1 图简介1969.1.1 无向图1979.1.2 有向图1979.1.3 有向多边图1979.1.4 属性图1979.2 GraphX简介1989.3 GraphX API1999.3.1 数据抽象1999.3.2 创建图2009.3.3 图属性2029.3.4 图操作符2049.4 总结217第10章 集群管理员218

封面

Spark大数据分析-核心概念.技术及实践

书名:Spark大数据分析-核心概念.技术及实践

作者:穆罕默德.古勒

页数:249

定价:¥69.0

出版社:机械工业出版社

出版日期:暂无

ISBN:9787111565611

PDF电子书大小:64MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注