实时数据处理和分析指南_PDF下载[66MB-百度云](印)希尔皮·萨克塞纳(ShilpiS

本书特色

[

《实时数据处理和分析指南》主要介绍实时大数据计算领域的相关技巧和经验，包括Flink、Spark和Storm等流处理框架技术。全书从搭建开发环境开始，逐步实现流处理，循序渐进地引导读者学习如何利用Rabbit MQ、Kafka和NiFi以及Storm、Spark、Flink和Beam等组件协同应用来解决实际问题。本书内容分为6个部分，分别是“导言——熟悉实时分析”“搭建基础设施”“Storm实时计算”“使用Spark实现实时计算”“使用Flink实现实时分析”以及“综合应用”。在阅读本书之前，读者应具备基本的Java和Scala编程基础，还应熟悉Maven、Java和Eclipse的安装和配置流程。

]

内容简介

[

本书针对数据实时处理和分析进行了全面且深入地介绍, 包括已建立的实时堆栈、各个组件的关键集成等 ; 并且全面介绍了实时解决方案设计的基本构建模块, 以便为读者设计实时解决方案时提供搜索和可视化方面的帮助。同时, 本书分别从概念和实践上介绍实时分析, 让读者能有足够的能力应用书中知识并创建属于自己的解决方案。

]

作者简介

[

希尔皮·萨克塞纳（Shilpi Saxena）是IT领域的一位技术布道者。她曾涉足多个领域(机器对机器空间、医疗保健、电信、人才招聘和制造业)。在企业解决方案的构思和执行的所有方面，以及在软件行业的产品和服务方面有超过12年的经验。她一直在大数据领域从事设计、管理和提供解决方案，并领导着一支高水平和分布在各地的精英工程师团队。沙鲁巴·古普塔（Saurabh Gupta）是一名软件工程师，有数十年的IT行业从业经验，目前从事处理和设计在生产中运行的实时和批处理项目的相关工作，主要包括Impala、Storm、NiFi、Kafka等技术以及在AWS上部署Docker，他还参与了各种物联网项目，涉及电信、医疗保健、智能城市、智能汽车等领域。

]

第一部分导言—熟悉实时分析第 1章实时分析简介　21.1　大数据的定义　21.2　大数据的基础设施　31.3　实时分析—神话与现实　61.4　近实时解决方案—可用的架构　91.4.1　NRT的Storm解决方案　91.4.2　NRT的Spark解决方案　101.5　Lambda架构—分析可能性　111.6　物联网—想法与可能性　131.7　云—考虑NRT和物联网　171.8　小结　18第 2章实时应用的基本组件　192.1　NRT系统及其构建模块　192.1.1　数据采集　212.1.2　流处理　222.1.3　分析层—服务终端用户　232.2　NRT的高级系统视图　252.3　NRT的技术视图　262.3.1　事件生产者　272.3.2　数据收集　272.3.3　代理　292.3.4　转换和处理　312.3.5　存储　322.4　小结　32第二部分　搭建基础设施第3章　了解和跟踪数据流　343.1　了解数据流　343.2　为数据提取安装基础设施　353.2.1　Apache Kafka　353.2.2　Apache NiFi　363.2.3　Logstash　413.2.4　Fluentd　433.2.5　Flume　463.3　将数据从源填到处理器—期望和注意事项　483.4　比较与选择适合用例的*佳实践　493.5　小试牛刀　493.6　小结　51第4章　安装和配置Storm　524.1　Storm概述　524.2　Storm架构和组件　534.2.1　特征　544.2.2　组件　544.2.3　流分组　564.3　安装和配置Storm　574.3.1　安装Zookeeper　574.3.2　配置Apache Storm　594.4　在Storm上实时处理任务　614.5　小结　67第5章　配置Apache Spark和Flink　685.1　安装并快速运行Spark　685.1.1　源码构建　695.1.2　下载Spark安装包　695.1.3　运行示例　705.2　安装并快速运行Flink　735.2.1　使用源码构建Flink　735.2.2　下载Flink　745.2.3　运行示例　755.3　安装并快速运行Apache Beam　795.3.1　Beam模型　795.3.2　运行示例　805.3.3　MinimalWordCount示例　825.4　Apache Beam中的平衡　855.5　小结　88第三部分　Storm实时计算第6章　集成Storm与数据源　906.1　RabbitMQ有效的消息传递　906.2　RabbitMQ交换器　916.2.1　直接交换器　916.2.2　RabbitMQ安装配置　936.2.3　RabbitMQ的发布和订阅　956.3　RabbitMQ与Storm集成　996.4　PubNub数据流发布者　1076.5　将Storm和RMQ_PubNub传感器数据拓扑串在一起　1116.6　小结　114第7章　从Storm到Sink　1157.1　安装并配置Cassandra　1157.1.1　安装Cassandra　1167.1.2　配置Cassandra　1177.2　Storm和Cassandra拓扑　1187.3　Storm和IMDB集成处理维度数据　1207.4　集成表示层与Storm　1227.5　小试牛刀　1347.6　小结　143第8章　Storm Trident　1448.1　状态保持和Trident　1448.1.1　事务性spout　1458.1.2　不透明事务性spout　1458.2　基本Storm Trident拓扑　1468.3　Trident内部实现　1488.4　Trident操作　1498.4.1　函数　1498.4.2　Map函数and FlatMap函数　1508.4.3　peek函数　1518.4.4　过滤器　1518.4.5　窗口操作　1528.4.6　聚合操作　1558.4.7　分组操作　1588.4.8　合并和组合操作　1598.5　DRPC　1608.6　小试牛刀　1618.7　小结　164第四部分　使用Spark实现实时计算第9章　运用Spark引擎　1669.1　Spark概述　1669.2　Spark的独特优势　1699.3　Spark用例　1729.4　Spark架构—引擎内部的运行模式　1749.5　Spark的语用概念　1769.6　Spark 2.x—数据框和数据集的出现　1789.7　小结　179第　10章运用Spark操作　18010.1　Spark—封装和API　18010.2　RDD语用探索　18210.2.1　转换　18510.2.2　动作　19010.3　共享变量—广播变量和累加器　19210.3.1　广播变量　19210.3.2　累加器　19510.4　小结　196第　11章 Spark Streaming　19711.1　Spark Streaming的概念　19711.2　Spark Streaming的简介和体系结构　19811.3　Spark Streaming的封装结构　20311.3.1　Spark Streaming API　20311.3.2　Spark Streaming操作　20411.4　连接Kafka和Spark Streaming　20611.5　小结　208第五部分　使用Flink实现实时分析第　12章运用Apache Flink　21012.1　Flink体系结构和执行引擎　21012.2　Flink的基本组件和进程　21312.3　将源流集成到Flink　21512.3.1　和Apache Kafka集成　21512.3.2　和RabbitMQ集成　21812.4　Flink处理和计算　22112.4.1　Datastream API　22112.4.2　DataSet API　22312.5　Flink持久化　22412.6　FlinkCEP　22612.7　Pattern API　22712.7.1　检测模式　22712.7.2　模式选择　22812.7.3　示例　22812.8　Gelly　22912.9　小试牛刀　23112.10　小结　242第六部分　综合应用第　13章用例研究　24413.1　概述　24413.2　数据建模　24513.3　工具和框架　24613.4　建立基础设施　24713.5　实现用例　25213.5.1　构建数据模拟器　25213.5.2　Hazelcast加载器　25913.5.3　构建Storm拓扑　26113.6　运行用例　27213.7　小结　279

封面

实时数据处理和分析指南

书名:实时数据处理和分析指南

作者:(印)希尔皮·萨克塞纳(Shilpi S

页数:280页

定价:¥79.0

出版社:人民邮电出版社

出版日期:2020-05-01

ISBN:9787115524867

PDF电子书大小:66MB 高清扫描完整版

百度云下载：http://www.chendianrong.com/pdf

实时数据处理和分析指南

本书特色

内容简介

作者简介

目录

封面

发表评论