Scrapy是应用Python开发的一个快速、高层次的屏幕抓取和Web抓取框架,用于抓Web站点并从页面中提取结构化的数据。《精通Python爬虫框架Scrapy》以Scrapy 1.0版本为基础,讲解了Scrapy的基础知识,以及如何应用Python和三方API提取、整理数据,以满足自己的需求。 本书共11章,其内容涵盖了Scrapy基础知识,理解HTML和XPath,安装Scrapy并爬取一个网站,应用爬虫填充数据库并输出到移动应用中,爬虫的强大功能,将爬虫部署到Scrapinghub云服务器,Scrapy的配置与管理,Scrapy编程,管道秘诀,理解Scrapy性能,应用Scrapyd与实时分析进行分布式爬取。

本书附录还分享了各种软件的安装与故障排除等内容。 本书适合软件开发人员、数据科学家,以及对自然语言处理和机器学习感兴趣的人阅读。

目录

知识兔

第1章 Scrapy简介1
第2章 理解HTML和XPath10
第3章 爬虫基础23
第4章 从Scrapy到移动应用62
第5章 迅速的爬虫技巧75
第6章 部署到Scrapinghub94
第7章 配置与管理102
第8章 Scrapy编程119
第9章 管道秘诀145
第10章 理解Scrapy性能173
第11章 应用Scrapyd与实时分析进行分布式爬取199
 

下载体验

请输入密码查看内容!

如何获取密码?

 

点击下载