GREENPLUM:从大数据战略到实现

相关资料

[

本书作者均为 Greenplum 内核开发团队核心成员,在大数据和机器学习行业具有丰富经验,全球视野和技术前瞻性都毋庸置疑。我也有幸和作者团队多次深度合作,相信他们精心打造的这本书可以给读者全新的启发,用正确的理念和方法论来迎接大数据和人工智能时代的挑战与机遇。
——腾讯云副总裁 王龙

随着数字资源持续爆炸式的增长,各行各业都在探索如何更好地利用数字资源,抓住机遇,实现数字化转型。在此过程中,有很多亟待解决的问题,其中,选择什么样的大数据平台是至关重要的决定。Greenplum 是业界领先的并行数据库MPP平台;经过15年的打磨,Greenplum以其计算速度快、扩展性强、接口丰富、原生支持丰富的大数据分析算法以及灵活支持多种存储协议等特点成为当今大数据分析平台的极佳选择。本书作者长期从事大数据平台领域的创新和研发工作,作为Greenplum的主要开发者,对大数据平台技术以及整个大数据产业链有丰富的实操经验和独到的见解。相信这本著作会令致力于大数据应用开发、设计、科研和教学的读者感到受益匪浅。
——戴尔科技集团全球副总裁,中国研发集团总经理 刘伟博士

阿里云选择开源Greenplum数据库发布数据库产品主要基于三个方面的考虑:*,Pivotal在Greenplum上持续投入了近十年的时间,打造出这款优秀的开源数据库产品。一个优秀的数据库引擎需要很长时间的沉淀和巨大的投入才能形成;第二,Greenplum是一个成熟的产品,在SQL的兼容性方面尤其出色,而SQL的兼容性会在很大程度上影响用户的体验和数据的迁移;第三,用户需要的不仅是引擎,更是一个完整的生态,Greenplum已经形成了完整的开源生态,并培养了很多的用户。在Greenplum生态中形成了很多优秀的BI 工具和ET工具,用户在使用时变得更加便捷。
——余锋 阿里云数据库研究员

Greenplum作为Pivotal公司投入研发十多年的 MPP产品,能够完美地满足高性能并行计算、海量数据存储及人工智能数据分析等需求。在金融、电信、零售等领域有着广泛应用。
Greenplum自2015年开源以来,产品迭代速度逐渐加快,推出了很多值得期待的新特性,开源社区也得到了快速发展,帮助越来越多的企业获得成功。在开源之初,百度即将 Greenplum引入内部使用,现已支撑了金融、搜索和教育等多个核心业务,同时也在百度云上推出了基于Greenplum的云服务。
本书由Greenplum研发梦之队精心编写,不仅深度解密其背后的设计理念和实现细节,还给读者带来了诸多场景的应用实践经验,是Greenplum使用、开发、运维人员的*参考资料。
——赖宝华 百度数据库团队技术经理

]

本书特色

[

这是一本系统剖析Greenplum开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。
● *部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和
云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什
么需要大数据战略以及如何建立大数据战略。这是一本系统剖析Greenplum开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。
● *部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和
云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什
么需要大数据战略以及如何建立大数据战略。
● 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主
题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么
Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5
章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦
和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
● 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户
自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过
容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器
学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进
行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍
Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍
Greenplum 丰富的图计算能力。
● 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关
企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从
Oracle 和 Teradta 迁移到 Greenplum。

]

内容简介

[

大数据已经从概念变成广泛落地的现实,并且对传统企业产生越来越大的影响。本书从大数据、人工智能、云计算三者的关系谈起,论述了企业制订大数据战略的原则、方法、技术平台的选择、实施、运维与管理的方方面面,并辅以成功案例,多方面展示了大数据在企业的应用。

]

作者简介

[

冯雷(Ray Feng)
姚延栋
Pivotal中国研发中心副总裁,在Pivotal公司全球范围内为Greenplum技术发展路线提供战略输入。联合创建了Pivotal中国研发中心,发起了Greenplum中国开源社区,奠定了包括阿里云、腾讯云和百度云在内的广大开源Greenplum用户群。在Pivotal中国招募并建设了Greenplum和HAWQ团队成为大数据和机器学习的意见领袖,培养团队成员同时成为Apache和Greenplum代码提交者。在创建Greenplum/Pivotal中国之前, 曾在Sun Microsystem 与 Symantec 系统和存储部门工作多年。拥有多项国内外云计算和大数据专利。
高小明
Pivotal中国研发中心Greenplum产品总监,先后参与和负责数据分析协作平台Chorus、开源PaaS云平台Cloud Foundry、MPP数据库Greenplum等产品的开发、运维和技术推广。目前着重关注PaaS云平台与大数据平台支撑下的数字化转型、微服务架构以及容器化与混合负载给数据产品带来的机遇和挑战。
杨瑜冯雷(Ray Feng)
Pivotal中国常务董事(Managing Director)兼研发中心总经理。Pivotal中国成立至今,冯雷主持了近十亿人民币投资的中国运营和研发体系。作为Pivotal全球产品关键领导人,为Pivotal公司的数字化理念建立及其对应的Cloud Foundry和Greenplum产品提供战略输入。冯雷于2010年从美国硅谷归国,在世界500强公司EMC旗下组建了Pivotal中国。在归国之前,冯雷曾在500强企业甲骨文(Oracle)总部从事云计算产品研发。作为云计算最早的一批从业人员,帮助甲骨文云计算资源调度领域成为意见领袖。拥有多项云计算专利。

姚延栋
Pivotal中国研发中心副总裁,在Pivotal公司全球范围内为Greenplum技术发展路线提供战略输入。联合创建了Pivotal中国研发中心,发起了Greenplum中国开源社区,奠定了包括阿里云、腾讯云和百度云在内的广大开源Greenplum用户群。在Pivotal中国招募并建设了Greenplum和HAWQ团队成为大数据和机器学习的意见领袖,培养团队成员同时成为Apache和Greenplum代码提交者。在创建Greenplum/Pivotal中国之前, 曾在Sun Microsystem 与 Symantec 系统和存储部门工作多年。拥有多项国内外云计算和大数据专利。
高小明
Pivotal中国研发中心Greenplum产品总监,先后参与和负责数据分析协作平台Chorus、开源PaaS云平台Cloud Foundry、MPP数据库Greenplum等产品的开发、运维和技术推广。目前着重关注PaaS云平台与大数据平台支撑下的数字化转型、微服务架构以及容器化与混合负载给数据产品带来的机遇和挑战。
杨瑜
Pivotal中国研发中心Greenplum工程技术总监,长期从事 Greenplum 内核的研发和管理工作,先后参与和负责基于Greenplum内核的机器学习库MADlib的研发、Greenplum 内核和PostgreSQL内核持续归并等工作,并参与组建Greenplum文本挖掘引擎GPText团队,有丰富的一线内核研发经验。

]

目录

序前 言**部分 大数据战略第1章 ABC:人工智能、大数据和云计算 21.1 再谈云计算 21.1.1 云计算由南向转为北向 21.1.2 P层云的精细化发展 31.1.3 大数据系统在云中部署不断朝南上移 41.2 大数据 51.2.1 从CRUD到CRAP 51.2.2 MPP(大规模并行计算) 71.2.3 大数据系统 81.2.4 当大数据遇到云计算 101.3 人工智能 111.3.1 模型化方法 121.3.2 AI的发展史 141.3.3 对AI应用的正确预期 151.4 ABC之间的关系 161.5 AI和人 181.5.1 经验与逻辑 181.5.2 公理化的逻辑系统 211.5.3 图灵机和可计算数 251.5.4 认知边界上的考量 28第2章 建立基于大数据的高阶数字化战略 322.1 基于云原生应用的数字化战略 322.2 大数据和AI:企业未来的终极 竞争点 342.3 大数据战略的落地 362.3.1 大数据和AI人才 362.3.2 AI驱动的开发方法和文化 372.3.3 大数据基础设施的建设 392.4 大数据和AI的展望 41第二部分 大数据平台第3章 数据处理平台的演进 453.1 前数据处理时代 453.2 早期的电子数据处理 473.2.1 电子计算机的出现 473.2.2 软件 473.3 数据库 493.3.1 数据模型 503.3.2 数据独立性和高级数据处理语言 543.3.3 数据保护 573.3.4 数据库早期发展过程中的困境 573.4 NoSQL数据库 583.4.1 NoSQL出现的背景 583.4.2 NoSQL产品的共性 603.4.3 NoSQL的分类 613.5 SQL数据库的回归 623.5.1 NoSQL与SQL的融合 623.5.2 Hadoop不等于大数据 633.5.3 SQL从未离开 643.6 集成数据处理和分析平台 653.6.1 数据类型 653.6.2 业务场景 663.6.3 集中还是分散 673.7 数据平台的选型 683.8 小结 69第4章 Greenplum数据库快速入门 724.1 Greenplum数据库的发展和现状 724.2 Greenplum数据库的特性 734.3 Greenplum数据库的组成 754.4 Greenplum数据库的安装与部署 764.4.1 准备工作 764.4.2 安装Greenplum 774.4.3 初始化Greenplum数据库 804.5 Greenplum数据库的常用操作 824.6 Greenplum数据库的常用命令 834.6.1 gpstart 834.6.2 gpstop 834.6.3 gpstate 834.6.4 gpactivatestandby 844.6.5 gpconfig 844.6.6 gpdeletesystem 844.7 小结 85第5章 Greenplum的架构和核心引擎 865.1 Greenplum的架构 865.1.1 Greenplum Master 875.1.2 Greenplum Segment 875.1.3 Greenplum Interconnect 875.1.4 Greenplum Standby Master 875.1.5 Greenplum Mirror Segment 885.2 Greenplum查询计划 885.2.1 单机查询计划 895.2.2 并行查询计划 905.3 Greenplum数据库查询处理的过程 955.3.1 Greenplum数据库的主要功能组件 955.3.2 Greenplum数据库查询的执行流程 965.4 小结 97第6章 从ETL到数据联邦和数据虚拟化 986.1 Greenplum中的ETL 996.1.1 PostgreSQL的ETL工具箱 996.1.2 GPLOAD 1006.2 Greenplum的数据联邦 1046.2.1 dblink简介 1046.2.2 外部表 1076.2.3 GPFDIST外部表 1096.2.4 可执行外部表 1196.2.5 Greenplum的S3外部表 1206.2.6 GPHDFS外部表 1276.2.7 Spark连接器 1296.2.8 Gemfire连接器 1296.3 Greenplum的数据虚拟化框架 1306.3.1 PXF的架构 1306.3.2 PXF的环境配置 1316.3.3 GPHDFS与PXF比较 1326.4 小结 133第7章 混合负载和资源管理 1347.1 混合负载的机遇和挑战 1347.2 混合负载的业务和技术要求 1367.3 资源管理 1397.4 并发管理 1457.5 小结 146第三部分 机器学习与数据分析第8章 Greenplum中的过程化编程语言 1498.1 PL/Python 1508.1.1 PL/Python简介 1508.1.2 受信任的过程化编程语言 1518.1.3 安装Python包 1528.1.4 安装Greenplum数据计算Python包集合 1538.1.5 类型转换 1538.1.6 PL/Python函数中的数据共享 1548.2 PL/R 1558.2.1 PL/R简介 1568.2.2 安装R包 1588.2.3 安装Greenplum数据计算R包集合 1588.3 PL/Container 1588.3.1 PL/Container简介 1598.3.2 一个简单的例子 1598.3.3 PL/Container的基本操作方法 1628.3.4 PL/Container实践总结 1668.3.5 关于PL/Container的开发 1678.4 小结 167第9章 MADlib 机器学习库 1689.1 MADlib入门 1689.1.1 MADlib简介 1689.1.2 MADlib的特点 1699.1.3 MADlib与其他机器学习算法库的比较 1729.1.4 MADlib的快速安装 1739.2 MADlib的架构 1749.2.1 SQL用户接口 1749.2.2 Python驱动函数 1759.2.3 C 机器学习算法实现 1759.2.4 C 数据库抽象层 1769.3 MADlib应用 1779.3.1 数据预处理 1779.3.2 监督学习 1789.3.3 非监督学习 1849.3.4 时间序列 1879.3.5 自定义机器学习算法 1889.4 小结 191第10章 Greenplum半结构化文本数据分析 19210.1 GPText文本分析概述 19210.1.1 GPText数据提取 19210.1.2 GPText的文本处理、索引流程和高阶分析 19310.2 GPText内置的全文检索引擎:Apache SolrCloud 19410.3 GPText架构:高速并行索引和查询 19510.4 数据准备 19710.5 GPText的使用:简单的SQL和UDF函数 19810.6 GPText的安装 20010.7 GPText索引 20110.7.1 创建GPText索引 20110.7.2 加载GPText索引 20410.7.3 GPText 增减索引列 20510.8 GPText简单查询 20510.8.1 GPText 查询的语法 20510.8.2 GPText 临近查询 20610.8.3 GPText top查询 20610.9 GPText高级查询 20710.9.1 GPText Facet 查询 20710.9.2 GPText 高亮查询结果 20910.10 GPText分区表查询 21010.11 GPText对自然语言处理的支持 21110.12 GPText定制化索引 21310.13 GPText管理工具 21410.14 GPText用于文本挖掘和分析 21510.15 小结 216第11章 地理空间数据分析和处理 21811.1 概述 21811.1.1 什么是地理空间数据 21811.1.2 地理空间数据应用与分析中的挑战 22011.2 Greenplum PostGIS 22311.2.1 Greenplum PostGIS 简介 22311.2.2 安装Greenplum PostGIS 组件 22411.2.3 **次使用 22711.3 Greenplum PostGIS应用实例 22811.3.1 GIS数据准备 22811.3.2 使用Greenplum PostGIS空间数据操作符进行GIS数据查询 23011.3.3 使用Greenplum PostGIS的UDF进行GIS数据分析 23311.3.4 栅格数据 23511.4 小结 239第12章 Greenplum数据库与图计算 24012.1 图的概念 24012.2 图的应用 24112.2.1 电子电路设计自动化 24112.2.2 搜索引擎 24212.2.3 社交网络 24212.3 图数据的处理 24312.4 Greenplum对图数据的支持 24412.5 MADlib中的图结构和算法 24512.5.1 图的表示 24512.5.2 MADlib支持的图算法 24512.5.3 MADlib图算法详解 24612.6 小结 277第四部分 Greenplum的运维和迁移第13章 Greenplum的监控和管理 28113.1 监控Greenplum集群的状态 28213.1.1 gpstate命令 28213.1.2 系统表gp_segment_conf?iguration 28313.1.3 Segment的故障恢复和再平衡 28413.1.4 常用的监控命令 28713.2 管理Greenplum集群 28913.2.1 参数配置 28913.2.2 访问管理 29013.2.3 统计信息 29213.2.4 管理表膨胀 29413.3 Greenplum指令中心(GPCC) 29713.3.1 GPCC简介 29713.3.2 可视化监控 29813.3.3 查询监控和分析 30113.3.4 工作负载管理 30513.3.5 监控告警系统 30713.4 小结 309第14章 Greenplum数据库的备份、恢复和迁移 31014.1 非并行数据库备份 31014.2 非并行数据库恢复 31314.3 并行数据库备份 31314.4 并行数据库恢复 31614.5 高效的并行数据库备份和恢复工具gpbackup/gprestore 31714.6 新一代Greenplum数据迁移工具GPCOPY 32214.7 小结 324第15章 从Oracle迁移到Greenplum 32615.1 概述 32615.2 Oracle与Greenplum的架构对比 32715.2.1 Oracle的主要痛点 32915.2.2 Greenplum的优势 33015.3 从Oracle迁移到Greenplum的流程 33115.3.1 迁移场景 33215.3.2 迁移过程 33415.3.3 特殊场景分析 34415.4 小结 352第16章 从Teradata迁移到Greenplum 35316.1 Teradata产品和用户面临的问题 35316.2 从Teradata迁移到Greenplum的可行性 35416.3 如何从Teradata迁移到Greenplum 35616.3.1 迁移流程概述 35616.3.2 Teradata数据卸载及DDL导出规范 35716.3.3 数据操作语句转换 36416.3.4 函数转换 36716.3.5 ETL应用工具连接转换 36916.3.6 其他应用接口迁移 37216.4 特殊场景 37316.4.1 事前微批去重 37316.4.2 事后批量去重 37416.5 小结 374附录A Greenplum社区 375附录B 外部表实例 380附录C Greenplum的SSL证书 386术语表 390

封面

GREENPLUM:从大数据战略到实现

书名:GREENPLUM:从大数据战略到实现

作者:冯雷 姚延栋 高小明 杨瑜

页数:391

定价:¥119.0

出版社:机械工业出版社

出版日期:2018-04-01

ISBN:9787111632160

PDF电子书大小:111MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注