Python网络爬虫权威指南(第2版)采用简洁强大的Python 语言,介绍了网页抓取,并为抓取新式网络中的各种数据类型分享了全面的指导。第一部分重点介绍网页抓取的基本原理:如何用Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。
目录
第一部分 创建爬虫
第1章 初见网络爬虫
第2章 复杂HTML 解析
第3章 编写网络爬虫
第4章 网络爬虫模型
第5章 Scrapy
第6章 存储数据
第二部分 高级网页抓取
第7章 读取文档
第8章 数据清洗
第9章 自然语言处理
第10章 穿越网页表单与登录窗口进行抓取
第11章 抓取JavaScript
第12章 利用API 抓取数据
第13章 图像识别与文字处理
第14章 避开抓取陷阱
第15章 用爬虫测试网站
第16章 并行网页抓取
第17章 远程抓取
第18章 网页抓取的法律与道德约束
下载体验