数据科学与工程技术丛书数据中心一体化最佳实践:设计仓储级计算机(原书第3版)

相关资料

[

5G时代的到来,意味着万物互连后带来的数据大爆炸和数据来源的更加多样,而传统的超算中心和新兴的互联网企业都有日益旺盛的算力需求,在人工智能、大数据、云计算、区块链、边缘计算等新一代信息技术迅猛发展的大趋势下,他们也在向彼此靠拢、相互融合、创新发展。数据中心一体化设计正是应对多样化工作负载融合创新的重要创新成果,值得每一位致力于此领域的研究人员和从业者认真思考和学习。
——张云泉,中国科学院计算技术研究所研究员、中国计算机学会高性能计算专委会秘书长、ACM 中国高性能计算专家委员会主席

今天,以谷歌、亚马逊、阿里等为代表的公司和机构,把成千上万的“电脑”以奇妙的方式组合起来,通过集中的方式、基于海量的数据,给世界上各种组织与个人提供“无穷”的计算与存储资源,从而为人类提供各式各样的信息服务。这本书以谷歌的实践和理解出发,结合世界上*的计算机系统与体系结构领域的进展,给读者展示了这样一个“巨型电脑”的软硬件组成、核心要素、评价指标、成本分析以及未来发展趋势。如果你也想“造”一个这样的“巨型电脑”,那这本书一定应该在你的必读书目里!
——汪玉,清华大学教授

超大规模云数据中心是当前支撑互联网和人工智能发展的*重要的基础设施,徐凌杰是这个领域的专家,他专业精到的译文让我们可以快速领略这个领域*前沿的进展。
——刘军,浪潮集团人工智能与高性能计算总经理

AI终究会超越人的大脑,因为其结构与功能可迅速迭代优化,从而提升规模效率。徐凌杰是一位杰出的架构师,他的这本译作将谷歌数据中心作为仓储计算机的秘诀拆解到了末梢。开源精神、严谨的算法框架与技术解决方案,值得AI业者参考。
——杨静,新智元创始人

]

本书特色

[

本书介绍了仓储级计算机(WSC)的设计。这种计算平台是云计算的核心,支撑着我们每天都在使用的各种强大的互联网服务。书中讨论了此类新型系统如何将数据中心本身当作一台超大规模的仓储级计算机来使用,同时又能使软硬件充分协同并提供高性能的互联网服务。每一章都涵盖多个真实世界的案例,其中包括详尽的谷歌在线服务的基础设施信息
全书共分8章。第1章为绪论,概述仓储级计算机及其架构;第2章首先总体介绍WSC中运行的应用,以及包括平台层软件、集群层基础软件、监控和管理软件在内的系统基础设施技术栈;第3章涵盖关键的硬件组件,重点讨论服务器和加速器组件、存储架构和数据中心网络设计,以及计算、存储和网络之间的相互作用;第4章着眼于更底层的系统设计,重点关注数据中心电力、冷却基础设施和建筑的设计;第5章讨论能耗和能效相关的话题,包括稳定测定能效的挑战、衡量数据中心能效的电力使用效率以及电力超额配置的设计和好处;第6章讲解如何对WSC的TCO进行建模,其中包括资本支出和运营支出,并通过案例比较传统计算机和WSC计算机;第7章讨论正常运行时间和可用性,包括如何对故障进行分类以及故障处理、维修优化的方法;第8章总结历史趋势并展望未来——WSC和云计算将成为主流和中心。
本书介绍了仓储级计算机(WSC)的设计。这种计算平台是云计算的核心,支撑着我们每天都在使用的各种强大的互联网服务。书中讨论了此类新型系统如何将数据中心本身当作一台超大规模的仓储级计算机来使用,同时又能使软硬件充分协同并提供高性能的互联网服务。每一章都涵盖多个真实世界的案例,其中包括详尽的谷歌在线服务的基础设施信息

全书共分8章。第1章为绪论,概述仓储级计算机及其架构;第2章首先总体介绍WSC中运行的应用,以及包括平台层软件、集群层基础软件、监控和管理软件在内的系统基础设施技术栈;第3章涵盖关键的硬件组件,重点讨论服务器和加速器组件、存储架构和数据中心网络设计,以及计算、存储和网络之间的相互作用;第4章着眼于更底层的系统设计,重点关注数据中心电力、冷却基础设施和建筑的设计;第5章讨论能耗和能效相关的话题,包括稳定测定能效的挑战、衡量数据中心能效的电力使用效率以及电力超额配置的设计和好处;第6章讲解如何对WSC的TCO进行建模,其中包括资本支出和运营支出,并通过案例比较传统计算机和WSC计算机;第7章讨论正常运行时间和可用性,包括如何对故障进行分类以及故障处理、维修优化的方法;第8章总结历史趋势并展望未来——WSC和云计算将成为主流和中心。

本书主要面向当今WSC系统的架构师和程序开发人员,希望能为有志于在此重要领域发展的人员打下一个坚实的基础,同时相关的内容也适用于那些仅想了解互联网基础设施信息的人群。

]

内容简介

[

本书将介绍仓储级计算机(WSC)。这种计算平台是云计算的核心,支撑着我们每天都在使用的各种强大的互联网服务。本书讨论了此类新型系统如何将数据中心本身当作一台超大规模仓储级的计算机来使用,同时又能使软硬件充分协同并提供高性能的互联网服务。书中还详细讲述了WSC的架构设计,其中不仅涵盖影响其设计、运行和成本结构的主要因素,还包括相应的基础软件的各种特性。每一章都介绍了多个真实世界的案例,其中包括详尽的分析在线服务的基础设施信息。本书主要面向当今WSC系统的架构师和程序开发人员,希望能为有志于在此重要领域发展的人才打下一个坚实的基础,同时相关的内容也适用于那些仅想了解互联网基础设施信息的人群。

]

作者简介

[

作者简介
路易斯·安德烈·巴罗索(Luiz André Barroso) 谷歌研究员、ACM会士,也是AAAS会士。目前领导着谷歌地图的工程基础设施工作,曾是谷歌平台工程团队的第一任经理,负责设计公司的计算平台。在网页搜索、基础软件、存储可用性、能效和硬件设计多个工程领域都有涉猎。
乌尔斯·霍尔兹勒(Urs Hölzle) 谷歌首位工程副总裁,自1999年以来一直领导着谷歌技术基础设施的开发。他目前的职责包括服务器、网络、数据中心以及基础软件的设计与运维,以支持谷歌内部和对外的云平台。他是ACM和AAAS会士、瑞士技术科学院和国家工程院的成员,并在美国的世界自然基金会的董事会任职。
帕塔萨拉蒂·兰加纳坦(Parthasarathy Ranganathan) 谷歌计算和数据中心硬件领域的技术带头人。此前,他曾是惠普实验室的研究员和首席技术专家,领导着系统和数据中心的研究。他发表了大量的论文,作为共同发明人的专利超过100项。他还是ACM SIGARCH Maurice Wilkes奖的获得者以及莱斯大学杰出青年工程校友奖得主。Partha目前是谷歌的杰出工程师、IEEE和ACM会士。

译者简介
徐凌杰,阿里云资深技术专家,负责包括GPU和AI芯片在内的数据中心异构计算基础设施,专注于架构与应用的软硬件协同。在加入阿里巴巴之前,他曾在NVIDIA、AMD和三星担任过多个大型GPU芯片项目的高级管理和架构师职位。他本科就读于上海交通大学信息工程专业,后赴美在德州大学奥斯汀分校获计算机体系结构硕士学位,并拥有加州大学伯克利分校的MBA学位。

]

目录

译者序致谢作者简介译者简介第1章 绪论11.1 仓储级计算机21.2 规模化下的成本效益31.3 不仅是服务器的简单堆砌41.4 单个数据中心与多个数据中心41.5 为什么WSC对你至关重要51.6 WSC架构概述61.6.1 服务器61.6.2 存储71.6.3 网络结构81.6.4 建筑与基础设施91.6.5 电力使用111.6.6 故障与维修处理121.7 本书概述12第2章 工作负载与基础软件152.1 WSC系统栈152.2 平台层软件162.3 集群层基础软件172.3.1 资源管理172.3.2 集群基础软件182.3.3 应用框架182.4 应用层软件192.4.1 工作负载多样性192.4.2 网页搜索202.4.3 视频服务222.4.4 学术文章相似度搜索232.4.5 机器学习242.5 监控基础设施272.5.1 服务层仪表盘272.5.2 性能诊断工具272.5.3 平台层健康监控282.6 WSC软件的权衡292.6.1 数据中心和台式机292.6.2 性能与可用性工具箱302.6.3 购买还是自建322.6.4 长尾容忍332.6.5 工程师应该知道的延迟数据332.7 云计算352.7.1 面向公有云服务的WSC和对内服务的WSC362.7.2 云原生软件362.8 仓储级信息安全37第3章 WSC硬件组件393.1 服务器硬件393.1.1 服务器和机架概述403.1.2 大型SMP通信效率的影响433.1.3 高性能服务器和低性能服务器453.2 计算加速器483.2.1 图形处理器493.2.2 张量处理器503.3 网络523.3.1 集群网络523.3.2 主机网络563.4 存储573.4.1 硬盘托盘与无盘服务器573.4.2 WSC非结构化存储583.4.3 WSC结构化存储593.4.4 存储与网络技术相互作用603.5 平衡的设计613.5.1 系统平衡:存储层次结构623.5.2 量化延迟、带宽及容量62第4章 数据中心基础:建筑、电力与冷却654.1 数据中心概述654.1.1 等级分类与规格654.1.2 建筑基础知识664.2 数据中心电力系统684.2.1 不间断电源系统684.2.2 配电单元694.2.3 交流与直流配电架构对比704.3 应用实例:冗余径向配电714.4 应用实例:中压电源层724.5 数据中心冷却系统744.5.1 机房空调系统764.5.2 冷水机组774.5.3 冷却塔774.5.4 自然冷却794.5.5 对气流的考量794.5.6 机架内冷却、行级冷却和液体冷却814.5.7 基于集装箱的数据中心824.6 应用实例:谷歌数据中心顶部冷却系统844.7 本章小结84第5章 能耗与能效855.1 数据中心能效855.1.1 PUE指标865.1.2 PUE指标的问题885.1.3 数据中心能效损失来源895.1.4 提升数据中心能效905.1.5 基础设施之外的因素915.2 计算能效925.2.1 能效的测量925.2.2 服务器能效925.2.3 WSC使用画像935.3 能耗成比例计算955.3.1 能耗成比例程度低的原因965.3.2 提升能耗成比例的能力975.3.3 系统其他部分的能耗成比例985.3.4 低功耗模式的相对有效性995.3.5 软件在能耗成比例中的作用1005.4 通过专用定制提高能效1035.5 数据中心供电1055.5.1 部署适量的设备1055.5.2 数据中心超额用电1055.6 服务器能量使用趋势1075.7 本章小结109第6章 成本建模1116.1 资本成本1116.2 运营成本1136.3 案例分析1146.4 实际数据中心成本1166.5 建模部分使用的数据中心1176.6 公有云成本118第7章 故障处理与维修1197.1 软件容错1207.2 故障分类1217.2.1 故障严重性分级1227.2.2 导致服务级故障的原因1237.3 机器级故障1247.3.1 导致机器级故障的原因1277.3.2 故障预测1287.4 维修1297.5 容错不是隐藏错误1307.6 集群系统设计的故障统计131第8章 结束语1358.1 硬件1368.2 软件1378.3 经济性与能效1388.4 打造响应快速的大规模系统1398.4.1 不断演进的工作负载1398.4.2 残酷的阿姆达尔定律1398.4.3 为微秒级系统优化1408.4.4 长尾1408.5 展望1418.5.1 摩尔定律的终结1418.5.2 加速器与全局系统设计1418.5.3 软件定义基础设施1428.5.4 计算机体系结构和WSC的新纪元1438.6 总结144参考文献145

封面

数据科学与工程技术丛书数据中心一体化最佳实践:设计仓储级计算机(原书第3版)

书名:数据科学与工程技术丛书数据中心一体化最佳实践:设计仓储级计算机(原书第3版)

作者:[美]路易斯·安德烈·巴罗索 (Luiz

页数:176

定价:¥79.0

出版社:机械工业出版社

出版日期:2020-01-01

ISBN:9787111644866

PDF电子书大小:62MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注