玩转Python网路爬虫

详细介绍

玩转Python网路爬虫

作者：黄永祥
　　定价：69元
印次：1-1
ISBN：9787302503286
出版日期：2018.08.01
印刷日期：2018.10.17

图书简介

本书站在初学者的角度，从原理到实践，循序渐进地讲述了使用Python开发网路爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网路爬虫所需的基础知识，分别是网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网路做全面分析；数据抓取介绍了Python爬虫模组Urllib和Requests的基础知识；数据清洗主要介绍字元串操作、正则和Beautiful Soup的使用；数据入库分别讲述了MySQL和MongoDB的操作，通过ORM框架SQLAlchemy实现数据持久化，实现企业级开发。实战篇深入讲解了分散式爬虫、爬虫软体开发与套用、12306抢票程式和微博爬取，所举示例均来自于开发实践，可帮助读者快速提升技能，开发实际项目。

作者介绍

黄永祥，信息管理与信息系统专业学士，曾从事过系统开发和自动化开发，精通B/S和C/S自动化测试技术，多年网路爬虫开发经验，对反爬虫机制有独到的见解，精通Flask、Django等Web框架并有丰富的网站开发经验。曾就职于广州易点科技有限公司，担任Python开发工程师，目前就职于广东数据集成有限公司。热爱分享和新技术的探索，在CSDN上发表多篇Python技术文章。

图书目录

第1章理解网路爬虫 1

1.1 爬虫的定义 1

1.2 爬虫的类型 2

1.3 爬虫的原理 3

1.4 爬虫的搜寻策略 5

1.5 反爬虫技术及解决方案 6

1.6 本章小结 8

第2章爬虫开发基础 9

2.1 HTTP与HTTPS 9

2.2 请求头 11

2.3 Cookies 13

2.4 HTML 14

2.5 JavaScript 16

2.6 JSON 18

2.7 Ajax 19

2.8 本章小结 20

第3章 Chrome分析网站 21

3.1 Chrome开发工具 21

3.2 Elements标籤 22

玩转Python网路爬虫

玩转Python网路爬虫

基本介绍

详细介绍

图书简介

作者介绍

图书目录

相关推荐