数据科学与工程技术丛书数据科学实战之网络爬取:PYTHON实践和示例

本书特色

[

本书提供了一个完整的、现代的Web抓取指南,使用Python作为编程语言,专为数据科学的读者编写,探讨了Web抓取和以及其背后的大量Web技术。书中首先简要概述抓取和现实生活中的用例,解释了HTTP、HTML和CSS的核心概念作为基础。*后总结了一些*佳实践和一系列的例子,这些数据科学用例汇集了你学到的所有知识。读者将学习到如何利用已建立的*佳实践和常用的Python包,处理包括JavaScript、Cookie和常见的web抓取技术。

]

内容简介

[

本书提供了一个完整的、现代的Web抓取指南,使用Python作为编程语言,专为数据科学的读者编写,探讨了Web抓取和以及其背后的大量Web技术。书中首先简要概述抓取和现实生活中的用例,解释了HTTP、HTML和CSS的核心概念作为基础。*后总结了一些*佳实践和一系列的例子,这些数据科学用例汇集了你学到的所有知识。读者将学习到如何利用已建立的*佳实践和常用的Python包,处理包括JavaScript、Cookie和常见的web抓取技术。

]

作者简介

[

Seppe vanden Broucke是比利时鲁汶大学经济与商务学院数据科学方面的助理教授。他的研究兴趣包括商务数据挖掘和分析、机器学习、流程管理和流程挖掘,相关论文发表在知名国际期刊和顶级会议上。 Seppe从事包括高级分析、大数据和信息管理课程方面的教学工作,也经常提供工业和商业用户的培训。除了工作,Seppe喜欢旅行、阅读(从Murakami到Bukowski到Asimov)、听音乐(从Booka Shade到Miles Davis到Claude Debussy)、看电影和连续剧(由于没时间现在看得少多了)、玩游戏和关注新闻事件。
Bart Baesens是比利时鲁汶大学大数据和数据分析方面的教授,也是英国南安普顿大学的讲师。他对大数据及分析、信用风险建模、欺诈检测和营销分析进行了广泛的研究。Bart撰写了200多篇学术论文和若干本书。除了与家人共度时光外,他还是一名布鲁日足球俱乐部的铁杆球迷。Bart是美食家和业余厨师,他喜欢在他的酒窖里或者在花园里俯瞰红色英式电话亭时喝一杯好酒(他*喜欢的是白维欧尼或红赤霞珠)。Bart热爱旅行,对第一次世界大战着迷,并阅读了很多关于这个主题的书籍。

]

目录

译者序作者简介技术审校者简介前言**部分 网络爬取基础第1章 简介21.1 什么是网络爬取21.1.1 网络爬取为什么用于数据科学21.1.2 谁在使用网络爬取41.2 准备工作61.2.1 设置61.2.2 Python 快速入门7第2章 网络传输协议HTTP182.1 网络的魔力182.2 超文本传输协议202.3 Python中的HTTP—Requests库252.4 带参数的URL查询字符串28第3章 HTML和CSS363.1 超文本标记语言HTML363.2 将浏览器用作开发工具383.3 层叠样式表CSS423.4 Beautiful Soup库453.5 有关Beautiful Soup的更多内容53第二部分 高级网络爬取第4章 深入挖掘HTTP604.1 使用表单和POST请求604.2 其他HTTP请求方法714.3 关于头的更多信息734.4 使用Cookie794.5 requests库的session对象874.6 二进制、JSON和其他形式的内容89第5章 处理JavaScript935.1 什么是JavaScript935.2 爬取JavaScript945.3 使用Selenium爬取网页985.4 Selenium的更多信息109第6章 从网络爬取到网络爬虫1156.1 什么是网络爬虫1156.2 使用Python实现网络爬虫1176.3 数据库存储120第三部分 相关管理问题及*佳实践第7章 网络爬取涉及的管理和法律问题1307.1 数据科学过程1307.2 网络爬取适合用于哪里1337.3 法律问题134第8章 结语1398.1 其他工具1398.1.1 其他Python库1398.1.2 Scrapy库1408.1.3 缓存1408.1.4 代理服务器1418.1.5 基于其他编程语言的爬取1418.1.6 命令行工具1428.1.7 图形化的爬取工具1428.2 *佳实践和技巧143第9章 示例1479.1 爬取Hacker News网页1489.2 使用Hacker News API1509.3 爬取引用信息 1509.4 爬取书籍信息1549.5 爬取GitHub上项目被收藏的次数1569.6 爬取抵押贷款利率1609.7 爬取和可视化IMDB评级1659.8 爬取IATA航空公司信息1669.9 爬取和分析网络论坛的互动1719.10 收集和聚类时尚数据集1779.11 Amazon评论的情感分析1809.12 爬取和分析维基百科关联图1889.13 爬取和可视化董事会成员图1949.14 使用深度学习破解验证码图片197

封面

数据科学与工程技术丛书数据科学实战之网络爬取:PYTHON实践和示例

书名:数据科学与工程技术丛书数据科学实战之网络爬取:PYTHON实践和示例

作者:[比] 希普·万登·布鲁克(Seppe

页数:220

定价:¥69.0

出版社:机械工业出版社

出版日期:2018-12-01

ISBN:9787111614043

PDF电子书大小:75MB 高清扫描完整版

百度云下载:http://www.chendianrong.com/pdf

发表评论

邮箱地址不会被公开。 必填项已用*标注