精通Scrapy网路爬虫

基本信息

作者：刘硕
定价：59元
印次：1-1
ISBN：9787302484936
出版日期：2017.10.01
印刷日期：2017.09.22

内容简介

本书深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧。全书共14章，从逻辑上可分为基础篇和高级篇两部分，基础篇重点介绍Scrapy的核心元素，如spider、selector、item、link等；高级篇讲解爬虫的高级话题，如登录认证、档案下载、执行JavaScript、动态网页爬取、使用HTTP代理、分散式爬虫的编写等，并配合项目案例讲解，包括供练习使用的网站，以及京东、知乎、豆瓣、360爬虫案例等。本书案例丰富，注重实践，代码注释详尽，适合有一定Python语言基础，想学习编写複杂网路爬虫的读者使用。

目录结构

第1章初识Scrapy1

1.1网路爬虫是什幺1

1.2Scrapy简介及安装2

1.3编写第一个Scrapy爬虫3

1.3.1项目需求4

1.3.2创建项目4

1.3.3分析页面5

1.3.4实现Spider6

1.3.5运行爬虫8

1.4本章小结11

第2章编写Spider12

2.1Scrapy框架结构及工作原理12

2.2Request和Response对象14

2.2.1Request对象15

2.2.2Response对象16

2.3Spider开发流程18

2.3.1继承scrapy.Spider19

2.3.2为Spider命名20

2.3.3设定起始爬取点20

2.3.4实现页面解析函式22

2.4本章小结22

第3章使用Selector提取数据23

3.1Selector对象23

3.1.1创建对象24

3.1.2选中数据25

3.1.3提取数据26

3.2Response内置Selector28

3.3XPath29

3.3.1基础语法30

3.3.2常用函式35

3.4CSS选择器36

3.5本章小结40

第4章使用Item封装数据41

4.1Item和Field42

4.2拓展Item子类44

4.3Field元数据44

4.4本章小结47

第5章使用ItemPipeline处理数据48

5.1ItemPipeline48

5.1.1实现ItemPipeline49

5.1.2启用ItemPipeline50

5.2更多例子51

5.2.1过滤重複数据51

5.2.2将数据存入

MongoDB54

5.3本章小结57

精通Scrapy网路爬虫

基本信息

内容简介

目录结构

相关推荐