新闻资讯
看你所看,想你所想

玩转Python网路爬虫

玩转Python网路爬虫

玩转Python网路爬虫

本书站在初学者的角度,从原理到实践,循序渐进地讲述了使用Python开发网路爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网路爬虫所需的基础知识,分别是网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网路做全面分析;数据抓取介绍了Python爬虫模组Urllib和Requests的基础知识;数据清洗主要介绍字元串操作、正则和Beautiful Soup的使用;数据入库分别讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,实现企业级开发。实战篇深入讲解了分散式爬虫、爬虫软体开发与套用、12306抢票程式和微博爬取,所举示例均来自于开发实践,可帮助读者快速提升技能,开发实际项目。

基本介绍

  • 书名:玩转Python网路爬虫 
  • 作者:黄永祥
  • ISBN:9787302503286 
  • 定价:69元
  • 出版社:清华大学出版社 
  • 出版时间:2018.08.01
  • 印刷次数:1-2 
  • 印刷日期:2018.10.17

详细介绍

玩转Python网路爬虫
作者:黄永祥
  定价:69元
印次:1-1
ISBN:9787302503286
出版日期:2018.08.01
印刷日期:2018.10.17

图书简介

本书站在初学者的角度,从原理到实践,循序渐进地讲述了使用Python开发网路爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网路爬虫所需的基础知识,分别是网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网路做全面分析;数据抓取介绍了Python爬虫模组Urllib和Requests的基础知识;数据清洗主要介绍字元串操作、正则和Beautiful Soup的使用;数据入库分别讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,实现企业级开发。实战篇深入讲解了分散式爬虫、爬虫软体开发与套用、12306抢票程式和微博爬取,所举示例均来自于开发实践,可帮助读者快速提升技能,开发实际项目。

作者介绍

黄永祥,信息管理与信息系统专业学士,曾从事过系统开发和自动化开发,精通B/S和C/S自动化测试技术,多年网路爬虫开发经验,对反爬虫机制有独到的见解,精通Flask、Django等Web框架并有丰富的网站开发经验。曾就职于广州易点科技有限公司,担任Python开发工程师,目前就职于广东数据集成有限公司。热爱分享和新技术的探索,在CSDN上发表多篇Python技术文章。

图书目录

第1章 理解网路爬虫 1
1.1 爬虫的定义 1
1.2 爬虫的类型 2
1.3 爬虫的原理 3
1.4 爬虫的搜寻策略 5
1.5 反爬虫技术及解决方案 6
1.6 本章小结 8
第2章 爬虫开发基础 9
2.1 HTTP与HTTPS 9
2.2 请求头 11
2.3 Cookies 13
2.4 HTML 14
2.5 JavaScript 16
2.6 JSON 18
2.7 Ajax 19
2.8 本章小结 20
第3章 Chrome分析网站 21
3.1 Chrome开发工具 21
3.2 Elements标籤 22
3.3 Network标籤 23
3.4 分析QQ音乐 27
3.5 本章小结 29
第4章 Fiddler抓包工具 30
4.1 Fiddler介绍 30
4.2 Fiddler安装配置 31
4.3 Fiddler抓取手机套用 33
4.4 Toolbar工具列 36
4.5 Web Session列表 37
4.6 View选项视图 40
4.7 Quickexec命令行 41
4.8 本章小结 42
第5章 Urllib数据抓取 43
5.1 Urllib简介 43
5.2 传送请求 44
5.3 複杂的请求 46
5.4 代理IP 47
5.5 使用Cookies 48
5.6 证书验证 50
5.7 数据处理 51
5.8 本章小结 52
第6章 Requests数据抓取54
6.1Requests简介及安装54
6.2请求方式55
6.3複杂的请求方式57
6.4下载与上传60
6.5本章小结63
第7章 验证码识别64
7.1验证码类型64
7.2OCR技术66
7.3第三方平台69
7.4本章小结72
第8章 数据清洗74
8.1字元串操作74
8.2正则表达式78
8.3BeautifulSoup介绍及安装84
8.4BeautifulSoup的使用86
8.5本章小结90
第9章 文档数据存储92
9.1CSV数据写入和读取92
9.2Excel数据写入和读取94
9.3Word数据写入和读取99
9.4本章小结101
第10章 ORM框架104
10.1SQLAlchemy介绍104
10.2安装SQLAlchemy105
10.3连线资料库106
10.4创建数据表108
10.5添加数据111
10.6更新数据112
10.7查询数据114
10.8本章小结116
第11章 MongoDB资料库操作118
11.1MongoDB介绍118
11.2安装及使用120
11.2.1MongoDB120
11.2.2MongoDB可视化工具121
11.2.3PyMongo123
11.3连线资料库123
11.4添加文档125
11.5更新文档126
11.6查询文档127
11.7本章小结130
第12章 项目实战:爬取淘宝商品信息131
12.1分析说明131
12.2功能实现134
12.3数据存储136
12.4本章小结138
第13章 项目实战:分散式爬虫——QQ音乐139
13.1分析说明139
13.2歌曲下载140
13.3歌手和歌曲信息145
13.4分类歌手列表148
13.5全站歌手列表150
13.6数据存储152
13.7分散式概念154
13.7.1GIL是什幺154
13.7.2为什幺会有GIL154
13.8并发库concurrent.futures155
13.9分散式爬虫157
13.10本章小结159
第14章 项目实战:爬虫软体——淘宝商品信息161
14.1分析说明161
14.2GUI库介绍162
14.3PyQt5安装及环境搭建162
14.4软体界面开发165
14.5MVC——视图169
14.6MVC——控制器171
14.7MVC——模型172
14.8扩展思路173
14.9本章小结174
第15章 项目实战:12306抢票176
15.1分析说明176
15.2验证码验证177
15.3用户登录与验证181
15.4查询车次187
15.5预订车票193
15.6提交订单196
15.7生成订单204
15.8本章小结209
第16章 项目实战:玩转微博219
16.1分析说明219
16.2用户登录220
16.3用户登录(带验证码)232
16.4关键字搜寻热门微博240
16.5发布微博247
16.6关注用户253
16.7点讚和转发评论257
16.8本章小结263
第17章 Scrapy爬虫框架265
17.1爬虫框架265
17.2Scrapy的运行机制267
17.3安装Scrapy268
17.4爬虫开发快速入门270
17.5Spiders介绍277
17.6Spider的编写278
17.7Items的编写282
17.8ItemPipeline的编写284
17.9Selectors的编写288
17.10档案下载291
17.11本章小结296
第18章 项目实战:Scrapy爬取QQ音乐298
18.1分析说明298
18.2创建项目299
18.3编写setting300
18.4编写Items301
18.5编写ItemPipelines302
18.6编写Spider305
18.7本章小结310

相关推荐

声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:yongganaa@126.com