数据天才-数据科学家修炼之道

相关资料

[

数据科学家是商业分析、统计学和计算机科学等领域的通才,成为数据科学家正成为年轻人的新梦想。光启高等理工研究院季春霖副院长推荐我读这本他参与翻译的书之后,我一开始期望这是一本数学味、计算机味很浓的书籍。后来,完全出乎意料,这本书行文竟然如此清晰明白,原理与观点娓娓道来,并剖析了大量实际而有趣的案例,读起来丝毫没有教科书式的刻板感。通过本书,你可以了解一个数据科学家所需的完善的知识体系,包括商业分析、数据库、统计模型、蒙特卡洛模拟、机器学习、Hadoop、MapReduce、哈希连接等。本书显然为有梦想的你在通往数据科学家的道路上铺就了阶梯,我相信你只要拾阶而上,到达目的地就是确定无疑的。
——王磊 国家统计局高级统计师
中国国际经济交流中心金融学博士后
北京大学肿瘤医院核医学科客座教授
2017 年大数据行业已经从上半场开始挺进下半场,数据在不知不觉中影响着我们的生产、生活、娱乐等方方面面。我们深耕在行业,深知目前国内从行业角度真正缺乏的是有着商业精神的数据科学家,本书从场景出发给我们展示了如何成为数据天才。我与吴博、晓峰、春霖交流很多,他们有深厚的学术素养,但仍实实在在地做着数据商业,恰恰这一点也是目前国内缺乏的,我一直认为在中国不缺数据技术人才,但缺乏的是真正懂商业的数据天才、数据科学家。希望大家能从本书中汲取知识,真正走向数据科学的商业之路。
——汪祥斌 DataEye 创始人、CEO
数据科学家是“21 世纪*性感的职位”,全球到 2018 年对数据科学家有上千万的职位空缺,仅中国就稀缺上百万这样的人才。这本《数据天才:数据科学家修炼之道》是成为数据科学家的必备宝典。书中对数据科学有着翔实的介绍,并针对数据科学家日常工作中所需的技能进行了深度的剖析,辅以大量的实用案例分析,有助于快速提升大家对数据科学的理解和应用。本书势必会成为继维克托·迈尔-舍恩伯格的《大数据时代》后的又一经典大作!
——刘金玲 中国大数据产业*媒体“36 大数据”创始人
大数据是近年来媒体的热点话题,大数据时代在科学领域里的表现就是数据科学的兴起。那么人们不禁会问:什么是数据科学以及如何成为数据科学家?作者通过本书及时地为读者用一种全景式的方式给出了答案。本书以通俗易懂的语言风格和众多的真实案例,讲活了大数据与数据科学,全面而又深入浅出地阐明了数据科学的实质与内涵,揭示了数据科学家的修炼秘笈。相信不同读者一定都能从书中得到启发,了解价值,找到灵感,更好地以全新的视角审视自己的专业领域以及汲取更多的新理念、新思想。
——谌东宇 教授 深圳云数通科技有限公司总裁
前海云游数据运营(深圳)有限公司首席数据官
西南交通大学数学学院客座教授
人生的关键决策只有几个,择业就是其中之一。良好的职业决定和素质准备来自于对未来的场景有清晰而且正确的认知。吴博的这本译著,不仅能够帮助我们认识未来几十年社会、商业和技术场景中的数据行业,数据科学家的是和不是,更重要的是提供了修炼自己的宝鉴。本书横跨中美视野、结合生活事件的描述,使得我们带着轻松、开心的心情完成对数据科学的认知、体悟,让人有一种跃跃欲试和大展宏图的感觉。实在是 4-0 时代必备的一本书!
——郑立新 德摩资本董事长
2017 年 3 月 14 日于深圳

]

本书特色

[

这是一本跟数据科学和数据科学家有关的“手册”,它还包含传统统计学、编程或计算机科学教科书中所没有的信息。 本书有3个组成部分:一是多层次地讨论数据科学是什么,以及数据科学涉及哪些其他学科;二是数据科学的技术应用层面,包括教程和案例研究;三是给正在从业和有抱负的数据科学家介绍一些职业资源。本书中有很多职业和培训相关资源(如数据集、网络爬虫源代码、数据视频和如何编写API),所以借助本书,你现在就可以开始数据科学实践,并快速地提升你的职业水平。

]

内容简介

[

本书会精准地告诉你什么是数据科学,它跟计算机科学有何差异,如何从数据中提炼价值,如何提升数据科学技能,获得工作机会。本书包括以下内容:
源代码、数据集,以及供复习的名词字典
供数据科学家参考的简历样本、薪酬调查,以及职位描述样本
什么样的公司在寻找数据科学家
大数据及分析产业的权威分析
能展示竞争优势的实际面试问题
能帮助切实理解数据分析的案例
数据科学窍门、秘方和规则

]

作者简介

[

Vincent Granville博士是一名富有远见的数据科学家,有 15 年大数据、预测建模、数字分析和业务分析的经验。Vincent 在评分技术、欺诈检测和网络流量优化及增长等领域,是举世公认的权威专家。在过去的 10 年中,他曾与 Visa 一起研究实时*欺诈检测,与CNET一起研究广告组合优化,与Microsoft(微软公司)一起研究“改变点检测”,与Wells Fargo(富国银行)一起研究在线用户体验,与InfoSpace一起研究搜索智能,与eBay一起研究自动竞价,与各大搜索引擎、广告网络和大型广告客户一起研究点击欺诈检测。Vincent 也管理着LinkedIn上*的“大数据及分析数据科学家”小组,该小组拥有超过100 000名成员。
最近,Vincent推出了数据科学中心(Data Science Center)这个大数据、业务分析和数据科学界的领先社区。Vincent曾是剑桥大学和美国国家统计科学学院的博士后。他曾入围沃顿商业计划竞赛和比利时数学奥林匹克的决赛。Vincent 已经在统计期刊上发表了40篇论文,并且是许多国际会议的受邀演讲嘉宾。他还开发了一种新的数据挖掘技术,被称为隐性决策树,他还拥有多项专利,是发表数据科学书籍的第一人,并筹集了600万美元的创业启动资金。根据福布斯的排名,Vincent 是大数据领域前20位有影响力的人物之一,被VentureBeat、MarketWatch和美国有线新闻网(CNN)专门报道。Vincent的Twitter账号为@Analyticbridge。
关于译者
吴博:利兹大学博士后,具备多年机器学习研发、数据科学从业经验。曾任爱立信大数据高级研究员,多家公司数据科学家及数据变现业务负责人。现任深圳市宜远智能科技有限公司创始人。
张晓峰:哈尔滨工业大学深圳研究生院计算机科学与技术学院副教授、博士生导师,主要研究方向为数据挖掘、隐私保护和机器学习等。曾在北大方正研究院、香港大学电子技术研究所工作。主持包括国家自然科学基金面上项目,以及其他省/市纵向、横向课题十余项。已在国内外重要学术刊物与会议上发表SCI/EI索引论文40余篇。
季春霖:深圳光启高等理工研究院联合创始人,副院长;深圳市统计学会副会长;哈佛大学博士后,杜克大学统计学博士,剑桥大学硕士;广东省自然科学基金杰青项目获得者;发表包括Science在内的论文60余篇,授权专利400余项。热衷于贝叶斯统计学及其应用。

]

目录

第1章 数据科学是什么 1 真伪数据科学对比 2 伪数据科学的两个例子 5 新大学的面貌 7 数据科学家 10 数据科学家与数据工程师 10 数据科学家与统计学家 12 数据科学家与业务分析师 13 13个真实世界情景中的数据科学应用 14 情景1:国家对烈性酒销售的垄断结束后,DUI(酒后驾驶)逮捕量减少 15 情景2:数据科学与直觉 17 情景3:数据故障将数据变成乱码 19 情景4:异常空间的回归 21 情景5:分析与诱导在提升销量上有何不同价值 22 情景6:关于隐藏数据 24 情景7:汽油中的铅会导致高犯罪率。真的吗 25 情景8:波音787(梦幻客机)问题 26 情景9:NLP的7个棘手句子 27 情景10:数据科学家决定着我们所吃的食品 28 情景11:用较好的相关性增加亚马逊的销售量 30 情景12:检测Facebook上的假档案或假“喜欢”数 32 情景13:餐厅的分析 33 数据科学的历史、开拓者和现代趋势 33 统计学将会复兴 34 历史与开拓者 36 现代的趋势 38 *近的问答讨论 40 总结 44第2章 大数据的独特性 45 两个大数据的问题 45 大数据“诅咒” 45 数据快速流动问题 50 大数据技术示例 56 大数据问题是数据科学所面临挑战的缩影 56 大规模数据集的聚类和分类 58 1亿行的Excel 63 MapReduce不能做什么 67 问题 67 3种解决方案 68 结论:何时使用MapReduce 69 沟通问题 70 数据科学:统计学的终结 72 8种*差的预测建模技术 72 把计算机科学、统计学和行业专业知识结合在一起 74 大数据生态系统 78 总结 79第3章 成为一名数据科学家 80 数据科学家的主要特征 80 数据科学家的职能 80 横向与纵向数据科学家 83 数据科学家的类型 86 伪数据科学家 86 自学成才的数据科学家 86 业余数据科学家 87 极限数据科学家 89 数据科学家人群特征 90 数据科学方面的培训 91 大学课程 91 公司和协会培训项目 95 免费培训项目 96 数据科学家职业道路 98 独立顾问 98 创业者 105 总结 118第4章 数据科学的技术(I) 119 新型指标 120 优化数字营销活动的指标 121 欺诈检测的指标 122 选择合适的分析工具 124 分析软件 124 可视化工具 125 实时产品 126 编程语言 128 可视化 128 用R生成数据视频 129 更复杂的视频 133 无模型的统计建模 134 无模型的统计建模是什么 135 该算法是如何工作的 135 源代码生成数据集 137 三类指标:中心性、波动性、颠簸性 137 中心性、波动性和颠簸性之间的关系 138 定义颠簸性 138 在Excel中计算颠簸性 139 使用颠簸系数 141 大数据的统计聚类 141 大数据的相关性和拟合度 143 一系列新的秩相关性 146 渐近分布与归一化 148 计算复杂度 152 计算q(n) 152 理论上的解决方案 155 结构系数 156 确定簇的数量 157 方法 157 例子 158 网络拓扑映射 159 安全通信:数据加密 163 总结 166第5章 数据科学的技术(II) 167 数据字典 168 什么是数据字典 168 建立数据字典 169 隐性决策树 169 实现方法 171 示例:互联网流量打分 173 结论 175 与模型无关的置信区间 175 方法 175 分析桥**定理 176 应用 177 源代码 178 随机数 179 解决问题的4个办法 181 拥有超强直觉能力的业务分析师的直观法 182 软件工程师的蒙特卡洛模拟法 182 统计学家的统计建模方法 183 计算机科学家的大数据方法 183 因果关系和相关性 183 怎样检测因果关系 184 数据科学项目的生命周期 186 预测模型的错误 189 逻辑相关回归 191 变量之间的相互作用 191 一阶近似 191 二阶近似 193 用Excel进行回归分析 195 实验设计 196 有趣的指标 196 把患者分成不同的人群进行治疗 196 私人定制的治疗 197 分析即服务和应用程序接口 198 工作原理 199 实施案例 199 关键词相关的API的源代码 200 其他主题 204 当数据库改变时,保存好数值 204 优化网络爬虫 205 哈希连接 206 用于模拟簇的简单源代码 207 Hadoop和大数据的新型合成方差 208 Hadoop和MapReduce的介绍 208 综合指标 209 Hadoop、数值的和统计的稳定性 210 方差的抽象概念 211 一个新的大数据定理 213 平移不变性的度量标准 214 实现:通信和计算成本 214 *终意见 215 总结 215第6章 数据科学应用案例研究 217 股票市场 217 使回报率提高500%的模式 217 优化统计交易策略 220 股票交易的API:统计模型 222 股票交易的API:具体实现 225 股票市场模拟 226 些许数学知识 229 新趋势 231 加密 232 数据科学应用:隐写术 232 好的电子邮件加密 236 验证码破解 239 欺诈检测 240 点击欺诈 241 连续点击评分与二进制欺诈/非欺诈 242 数学模型与基准 244 虚假转化产生的偏差 245 一些误解 246 统计面临的挑战 246 点击评分优化关键词出价 247 组合优化自动快速的特征选择 249 特征的预测能力:交叉验证 250 勾连检测和僵尸网络的关联规则检测 254 模式检测的极值理论 255 数字分析 256 在线广告:到达率和频率的计算公式 256 电子邮件营销:提高300%的性能 257 在7天内优化关键词广告宣传活动 258 自动新闻提要优化 260 用bit.ly进行竞争情报分析 261 测量 Twitter 哈希标签(hashtag)的收益 263 用3个修补方法提升谷歌搜索 267 改进相关性的算法 270 广告循环问题 272 杂项 273 简单模型会获得更好的销售预测 273 更好的医疗欺诈检测 275 归因模型 276 预测陨石撞击 277 在路口停车场收集数据 281 数据科学的其他应用 282 总结 282第7章 踏上你的数据科学职业之路 283 面试问题 283 关于工作经验的问题 283 技术问题 285 一般性问题 286 关于数据科学项目的问题 288 测试你自己的视觉和分析思维 291 通过肉眼的检测模式 292 识别偏差 294 误导性的时间序列和随机游走 295 从统计学家到数据科学家 296 数据科学家也是统计从业人员 297 谁应该给数据科学家教统计学 298 雇佣问题 298 数据科学家与数据架构师密切合作 299 谁应该参与战略思考 299 两种类型的统计学家 300 大数据与取样 301 数据科学家的分类 302 数据科学*流行的技能集合 302 LinkedIn上的顶级数据科学家 306 400个数据科学家职位头衔 309 薪酬调查 311 根据技能和位置的薪酬分类 312 创建自己的薪酬调查表 316 总结 317第8章 数据科学资源 318 专业资源 318 数据集 318 书籍 319 会议与组织 322 网站 324 概念定义 324 职业建设资源 327 招聘数据科学家的公司 328 数据科学招聘广告的样本 329 简历样本 329 总结 331

封面

数据天才-数据科学家修炼之道

书名:数据天才-数据科学家修炼之道

作者:文森特.格兰维尔

页数:未知

定价:¥85.0

出版社:电子工业出版社

出版日期:2017-05-01

ISBN:9787121308833

PDF电子书大小:159MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注