大数据原理-复杂信息的准备.共享和分析

本书特色

[

当大数据资源变得越发复杂时,仅靠更强大的计算机系统已无法解决问题。本书带我们重新审视数据准备环节,重点讨论了其中至关重要但又常常被忽略的主题——标识符、不变性、内省和数据索引。此外,书中也涵盖常见的与大数据设计、架构、操作和分析相关的内容,以及涉及法律、社会和伦理问题的非技术性章节。全书视角独特,涉猎广博,尤以医学大数据分析见长,强调基本原理,不关注编程细节和数学公式,适合企业决策者、技术专家以及计算机相关专业的学生阅读。

]

作者简介

[

作者简介Jules J. Berman 本科毕业于麻省理工学院,在获得了该校的两个科学学士学位(数学、地球与行星科学)后,他又获得了天普大学的哲学博士学位以及迈阿密大学的医学博士学位。他的博士研究工作是在天普大学的费尔斯癌症研究所和位于纽约瓦尔哈拉的美国健康基金会完成的。Berman博士在美国国家健康研究院完成了他的博士后研究工作,并曾在华盛顿特区的乔治·华盛顿大学医学中心实习过一段时间。Berman博士曾在马里兰州巴尔的摩市退伍军人管理局医疗中心担任解剖病理学、外科病理学和细胞病理学的首席专家,在那里他被任命为马里兰大学医学中心和约翰·霍普金斯医学研究机构的主任。1998年,他在美国国家癌症研究所癌症诊断计划中任病理信息学项目主管,在那里他从事大数据项目工作。2006年,Berman博士成为病理信息学协会主席。2011年,他获得了病理信息学协会终身成就奖。他是数百部科学出版物的作者之一。如今,Berman博士是一名自由作家,专注于信息科学、计算机程序设计和病理学三个专业领域的书籍写作。

]

目录

目  录译者序前言作者简介第0章 引言10.1 大数据的定义20.2 大数据VS小数据20.3 大数据在哪里40.4 大数据*常见的目的是产生小数据50.5 机会60.6 大数据成为信息宇宙的中心6第1章 为非结构化数据提供结构81.1 背景81.2 机器翻译91.3 自动编码111.4 索引141.5 术语提取16第2章 标识、去标识和重标识192.1 背景192.2 标识符系统的特征202.3 注册唯一对象标识符212.4 糟糕的标识方法242.5 在标识符中嵌入信息:不推荐252.6 单向哈希函数262.7 案例:医院登记272.8 去标识化282.9 数据清洗292.10 重标识302.11 经验教训31第3章 本体论和语义学323.1 背景323.2 分类:*简单的本体323.3 本体:有多个父类的类343.4 分类模型选择353.5 资源描述框架模式简介383.6 本体开发的常见陷阱40第4章 内省424.1 背景424.2 自我认知424.3 可扩展标记语言444.4 meaning简介454.5 命名空间与有意义的声明集合体464.6 资源描述框架三元组474.7 映射494.8 案例:可信时间戳504.9 总结50第5章 数据集成和软件互操作性525.1 背景525.2 调查标准委员会535.3 标准轨迹535.4 规范与标准565.5 版本控制585.6 合规问题605.7 大数据资源接口60第6章 不变性和永久性626.1 背景626.2 不变性和标识符636.3 数据对象646.4 遗留数据656.5 数据产生数据676.6 跨机构协调标识符676.7 零知识协调686.8 管理者的负担69第7章 测量707.1 背景707.2 计数707.3 基因计数727.4 处理否定737.5 理解控制747.6 测量的实践意义757.7 强迫症:伟大数据管理员的标志76第8章 简单有效的大数据技术778.1 背景778.2 观察数据788.3 数据范围858.4 分母878.5 频率分布898.6 均值和标准差928.7 估计分析948.8 案例:用谷歌Ngram发现数据趋势958.9 案例:预测观众的电影偏好97第9章 分析999.1 背景999.2 分析任务999.3 聚类、分类、推荐和建模1009.3.1 聚类算法1009.3.2 分类算法1019.3.3 推荐算法1019.3.4 建模算法1019.4 数据约简1039.5 数据标准化和调整1059.6 大数据软件:速度和可扩展性1079.7 寻找关系而非相似之处108第10章 大数据分析中的特殊注意事项11110.1 背景11110.2 数据搜索理论11110.3 理论搜索中的数据11210.4 过度拟合11310.5 巨大的偏差11310.6 数据太多11610.7 数据修复11610.8 大数据的数据子集:不可加和不传递11710.9 其他大数据缺陷117第11章 逐步走进大数据分析12011.1 背景12011.2 步骤1:制定一个问题12011.3 步骤2:资源评价12111.4 步骤3:重新制定一个问题12111.5 步骤4:查询输出充分性12211.6 步骤5:数据描述12211.7 步骤6:数据约简12311.8 步骤7:必要时选择算法12311.9 步骤8:结果评估和结论断言12411.10 步骤9:结论审查和验证125第12章 失败12712.1 背景12712.2 失败很常见12812.3 失败的标准12812.4 复杂性13112.5 复杂性何时起作用13212.6 冗余失败的情况13212.7 保护钱,不保护无害信息13312.8 失败之后13412.9 案例:癌症生物医学信息学网格—遥远的桥135第13章 合法性14013.1 背景14013.2 对数据的准确性和合法性负责14013.3 创建、使用和共享资源的权利14113.4 因使用标准而招致的版权和专利侵权行为14313.5 对个人的保护14413.6 许可问题14513.7 未经许可的数据14813.8 好政策是有力保障15013.9 案例:哈瓦苏派的故事151第14章 社会问题15314.1 背景15314.2 大数据感知15314.3 数据共享15514.4 用大数据降低成本和提高生产效率15814.5 公众的疑虑16014.6 从自己做起16114.7 傲慢和夸张162第15章 未来16415.1 背景16415.1.1 大数据计算复杂,需要新一代超级计算机?16515.1.2 大数据的复杂程度将超出我们完全理解或信任的能力范围?16615.1.3 我们需要用超级计算中的*新技术训练出一支计算机科学家组成的团队吗?16615.1.4 大数据会创建出那些目前没有训练程序的新型数据专业人员吗?16615.1.5 是否有将数据表示方法通过统一的标准规范化,从而支持跨网络大数据资源的数据集成和软件互操作性的可能?16915.1.6 大数据将向公众开放?16915.1.7 大数据弊大于利?17015.1.8 我们可以预测大数据灾难会破坏至关重要的服务、削弱国家经济、破坏世界政治的稳定吗?17115.1.9 大数据可以回答那些其他办法不能解决的问题吗?17115.2 后记171术语表172参考文献188索引196

封面

大数据原理-复杂信息的准备.共享和分析

书名:大数据原理-复杂信息的准备.共享和分析

作者:朱尔斯J.伯曼

页数:202

定价:¥79.0

出版社:机械工业出版社

出版日期:2017-07-01

ISBN:9787111572169

PDF电子书大小:37MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注