数据科学实用算法

本书特色

[

《数据科学实用算法》分为三部分。第I部分“数据约简”首先讨论数据约简和数据映射等概念,然后讲述关联统计、可扩展算法和分布式计算等基础知识。第II部分“从数据中提取信息”呈现线性回归、数据可视化和聚类分析等主题,用一章的篇幅介绍医疗分析的关键领域。第III部分“预测分析”通过开发两个基本且广泛使用的预测函数(k近邻和朴素贝叶斯)向读者介绍预测分析技术,用一章的篇幅专门论述预报,*后一章重点介绍数据流。

]

内容简介

[

《数据科学实用算法》将重点讲述数据分析的基石——算法。要成为一名数据分析专家,你必须了解算法原理,否则会产生挫败感、进入死胡同、浪费时间以及失败。本书将基本原理、算法和数据融为一体,提供大量Python和R代码,执行真实的数据分析,帮助你熟练编写程序,处理富有挑战性的数据。在学习过程中,你将沉浸在Python中,深入了解数据科学的基本算法和方法,获得根据新问题改编算法和进行创新分析的能力。
  《数据科学实用算法》面向数学、统计学和计算机科学专业的高年级本科生和研究生,可用作一学期或两学期的数据分析课本。先修科目要求不高,学过一两门概率论或统计学课程、接触过向量和矩阵、学过编程课程的学生不会遇到任何困难。每章结尾处通常进行扩展,介绍数据科学从业者感兴趣的创新内容,提供不同难度的练习。本书也非常适合自学,可作为从业人员的参考书籍。

]

作者简介

[

Brian Steele是蒙大拿州立大学的数学教授,是SoftMath咨询公司的资深数据科学家。 Steele博士发表过多篇关于EM算法、精确bagging、bootstrap和诸多统计应用的技术文章。Steele主要讲授数据分析和统计课程,并为客户提供与数据科学和统计有关的咨询。
  John Chandler自1999年以来一直从事最前沿的营销和数据分析工作,曾帮助多家《财富》100强公司评价广告效果,改善绩效。Chandler博士从2015年开始在蒙大拿州立大学商学院担任市场营销教授,讲授高级营销分析和数据科学课程。Chandler也是Ars Quanta咨询公司的创始人和首席数据科学家。
  Swarna Reddy是蒙大拿州立大学数学系教授,也是SoftMath咨询公司的创始人、首席执行官和资深数据科学家。Reddy专门研究计算数学和运筹学,曾发表过多篇论文,已开发出多个重大的生物信息学、网络安全和商业分析方案。

]

目录

第I部分 数据约简第1 章 数据科学概述 31.1 什么是数据科学? 31.2 美国的糖尿病数据 51.3 《联邦党人文集》的作者数据 61.4 预测纳斯达克股价 81.5 述评 91.6 关于本书 101.7 算法 121.8 Python语言 131.9 R语言 131.10 术语和符号 141.11 本书网站 16第2 章 数据映射和数据字典 172.1 数据约简 172.2 政治捐款 182.3 字典 192.4 教程:大金主 202.5 数据约简 242.5.1 符号和术语 242.5.2 政治捐款示例 252.5.3 映射 262.6 教程:选举周期捐款 272.7 相似度度量 332.8 教程:计算相似度 372.9 关于字典的总结性述评 412.10 练习 412.10.1 概念练习 412.10.2 计算练习 42第3 章 可扩展算法和联合统计 453.1 引言 453.2 示例:美国的肥胖症数据 463.3 关联统计数据 473.4 单变量观测 483.4.1 直方图 503.4.2 直方图的构建 513.5 函数 523.6 教程:直方图的构建 533.7 多变量数据 653.7.1 符号和术语 653.7.2 估计量 663.7.3 增广“矩”矩阵 693.7.4 述评 703.8 教程:计算相关矩阵 703.9 线性回归简介 773.9.1 线性回归模型 773.9.2 β的估计值 783.9.3 准确性评估 813.9.4 计算 823.10 教程:计算 833.11 练习 893.11.1 概念练习 893.12.2 计算练习 90第4 章 Hadoop和MapReduce 934.1 引言 934.2 Hadoop生态系统 944.2.1 Hadoop分布式文件系统 944.2.2 MapReduce 954.2.3 映射 964.2.4 约简 974.3 开发Hadoop应用程序 984.4 医疗保险支付 984.5 命令行环境 994.6 教程:编程实现MapReduce算法 1004.6.1 映射器 1024.6.2 约简器 1054.6.3 概要 1084.7 教程:使用亚马逊网络服务 1094.8 练习 1134.8.1 概念练习 1134.8.2 计算练习 113第II部分 从数据中提取信息第5 章 数据可视化 1175.1 引言 1175.2 数据可视化的原则 1185.3 做出正确选择 1215.3.1 单变量数据 1225.3.2 双变量和多变量数据 1255.4 利用好这台机器 1325.4.1 绘制图5.2 1345.4.2 绘制图5.3 1355.4.3 绘制图5.4 1365.4.4 绘制图5.5 1365.4.5 绘制图5.8 1385.4.6 绘制图5.10 1395.4.7 绘制图5.11 1405.5 练习 141
第6 章 线性回归方法 1436.1 引言 1436.2 线性回归模型 1446.2.1 示例:抑郁症、宿命论和简单化 1456.2.2 *小二乘法 1476.2.3 置信区间 1496.2.4 分布条件 1506.2.5 假设检验 1516.2.6 警示语 1546.3 R语言简介 1556.4 教程:R语言 1566.5 教程:大数据集和R语言 1596.6 因子 1646.6.1 交互 1666.6.2 扩展平方和F检验 1686.7 教程:共享单车 1716.8 残差分析 1756.8.1 线性 1766.8.2 示例:共享单车问题 1776.8.3 独立性 1796.9 教程:残差分析 1826.10 练习 1856.10.1 概念练习 1856.10.2 计算练习 185第7 章 医疗分析 1897.1 引言 1897.2 行为风险因素监测系统 1907.2.1 患病率的估计 1927.2.2 发病率的估计 1937.3 教程:糖尿病的患病率和发病率 1947.4 预测具有患病风险的个人 2037.5 教程:确认具有患病风险的个体 2087.6 非寻常的人口特征 2137.7 教程:构建近邻集合 2157.8 练习 2197.8.1 概念练习 2197.8.2 计算练习 220第8 章 聚类分析 2238.1 引言 2238.2 凝聚层次聚类 2248.3 各州间的对比 2258.4 教程:各州的层次聚类 2288.5 k均值算法 2358.6 教程:k均值算法 2368.7 练习 2428.7.1 概念练习 2428.7.2 计算练习 242第III部分 预测分析第9 章 k近邻预测函数 2479.1 引言 2479.2 符号和术语 2499.3 距离度量 2519.4 k近邻预测函数 2529.5 指数加权k近邻 2539.6 教程:数字识别 2559.7 准确性估计 2629.8 k近邻回归 2649.9 预测标准普尔500指数 2659.10 教程:利用模式回归进行预测 2669.11 交叉验证 2739.12 练习 2759.12.1 概念练习 2759.12.2 计算练习 275
第10 章 多项式朴素贝叶斯预测函数 27910.1 引言 27910.2 联邦党人文集 28010.3 多项式朴素贝叶斯预测函数 28110.4 教程:约简《联邦党人文集》 28510.5 教程:预测有争议的《联邦党人文集》的作者 29110.6 教程:客户细分 29410.6.1 加法平滑 29510.6.2 数据 29610.6.3 述评 30310.7 练习 30310.7.1 概念练习 30310.7.2 计算练习 304第11 章 预报 30711.1 引言 30711.2 教程:处理时间 30911.3 分析方法 31311.3.1 符号 31311.3.2 均值和方差的估计 31311.3.3 指数预报 31511.3.4 自相关 31611.4 教程:计算 31811.5 漂移和预报 32211.6 Holt-Winters指数型预报 32311.7 教程:Holt-Winters预报 32611.8 基于回归的股价预报 33011.9 教程:基于回归的预报 33111.10 时变回归预报器 33611.11 教程:时变回归预报器 33711.12 练习 33911.12.1 概念练习 33911.12.2 计算练习 339
第12 章 实时分析 34312.1 引言 34312.2 用纳斯达克报价数据流进行预报 34412.3 教程:预报Apple公司信息流 34612.4 Twitter信息流API 35112.5 教程:访问Twitter数据流 35212.6 情感分析 35712.7 教程:主题标签分组的情感分析 35812.8 练习 360附录 A 练习答案 363附录 B 使用Twitter API 377参考文献 379

封面

数据科学实用算法

书名:数据科学实用算法

作者:布赖恩·斯蒂尔

页数:未知

定价:¥98.0

出版社:清华大学出版社

出版日期:2019-11-01

ISBN:9787302531104

PDF电子书大小:143MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注