大数据集成

本书特色

[

本书作者在多年研究传统数据集成的基础上,着重分析了大数据背景下的大数据集成。和传统的数据集成相比,大数据集成具有一些新的挑战,例如数据和数据源的海量性、数据的多样性和数据的动态性等。本书共分6章,包括大数据集成的挑战和机遇、模式对齐、记录链接、数据融合、出现的新问题和结论,系统地讨论了解决大数据集成中关键问题的一些重要研究成果和方法,对大数据集成的研究者和实践者都很有帮助。另外本书也可以作为学生学习该领域的入门读物。

]

作者简介

[

Xin Luna Dong(董欣) 2013年加入谷歌公司担任高级研究员,研究兴趣包括数据集成、数据清洗和知识管理。在加入谷歌之前,她是AT&T实验室的研究员。董欣博士硕士毕业于北京大学,本科毕业于南开大学。
Divesh Srivastava AT&T实验室数据库领域首席科学家.

]

目录

目录丛书前言译者序前言第1章 大数据集成的挑战和机遇11.1 传统数据集成21.1.1 航班示例:数据源21.1.2 航班示例:数据集成71.1.3 数据集成:体系结构和三个主要步骤101.2 大数据集成:挑战121.2.1 “V”维度131.2.2 案例研究:深网数据量151.2.3 案例研究:抽取的领域数据181.2.4 案例研究:深网数据的质量221.2.5 案例研究:浅网结构化数据251.2.6 案例研究:抽取的知识三元组281.3 大数据集成:机遇301.3.1 数据冗余性311.3.2 长数据321.3.3 大数据平台331.4 章节安排33第2章 模式对齐342.1 传统模式对齐:快速导览352.1.1 中间模式352.1.2 属性匹配362.1.3 模式映射372.1.4 查询问答382.2 应对多样性和高速性的挑战392.2.1 概率模式对齐392.2.2 按需集成用户反馈522.3 应对多样性和海量性的挑战542.3.1 集成深网数据552.3.2 集成Web表格59第3章 记录链接683.1 传统记录链接:快速导览693.1.1 两两匹配713.1.2 聚类723.1.3 分块743.2 应对海量性挑战763.2.1 使用MapReduce并行分块773.2.2 meta-blocking:修剪两两匹配833.3 应对高速性挑战883.4 应对多样性挑战953.5 应对真实性挑战1003.5.1 时态记录链接1003.5.2 具有唯一性约束的记录链接107第4章 大数据集成:数据融合1134.1 传统数据融合:快速导览1144.2 应对真实性挑战1164.2.1 数据源的准确度1174.2.2 值为真的概率1184.2.3 数据源之间的复制关系1214.2.4 端到端的解决方案1284.2.5 扩展性和适应性1314.3 应对海量性挑战1344.3.1 基于MapReduce框架做离线融合1354.3.2 在线数据融合1364.4 应对高速性挑战1424.5 应对多样性挑战146第5章 大数据集成:出现的新问题1495.1 众包的角色1495.1.1 利用传递关系1505.1.2 众包端到端的工作流1555.1.3 未来的工作1585.2 数据源选择1585.2.1 静态数据源1605.2.2 动态数据源1625.2.3 未来的工作1665.3 数据源分析1665.3.1 Bellman系统1675.3.2 概述数据源1705.3.3 未来的工作174第6章 结论175参考文献177索引184

封面

大数据集成

书名:大数据集成

作者:董欣

页数:186

定价:¥79.0

出版社:机械工业出版社

出版日期:暂无

ISBN:9787111559863

PDF电子书大小:125MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注