# 写在前面

  • 书籍介绍:暂无。
  • 我的简评:暂无。
  • !!福利:文末有书籍地址、笔记思维导图、相关资料下载地址哦

# 第一章 开发环境配置

# 1.1.Python3的安装

  • windows、linux、mac

  • windows下安装有2种:通过Anaconda安装;直接下载安装包安装

  • Linux下的安装:命令安装;源码安装;Anaconda安装

  • Mac下安装:Homebrew;安装包安装;Anaconda安装

# 1.2.请求库的安装

  • requests、Selenium、ChromeDriver、GeckoDriver、PhantomJS、aiohttp

  • 爬虫可以简单分为几步:抓取页面;分析页面;存储页面

  • requests属于第三方库,Python默认不会自带这个库

  • Selenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作

  • Selenium需要浏览器来配合使用,只有安装ChromeDriver,才能驱动Chrome浏览器完成相应的操作,对于Firefox也可以使用同样的方式完成Selenium的对接

  • 目前最新的Chrome浏览器版本已经支持无界面模式了

  • PhantomJS是一个无界面的、可脚本编程的WebKit浏览器引擎,它原生支持多种Web标准:DOM操作、CSS选择器、JSON、Canvas以及SVG

  • aiohttp是一个提供异步Web服务的库,从Python3.5版本开始,Python加入了async/await关键字,使得回调的写法更加直观和人性化

# 1.3.解析库的安装

  • lxml、Beautiful Soup、pyquery、tesserocr

  • lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高

  • Beautiful Soup是Python的一个HTML或XML的解析库,可以用它来方便的从网页中提取数据

  • pyquery同样是一个强大的网页解析工具,他提供了和jQuery类似的语法来解析HTML文档

  • tesserocr是Python的一个OCR识别库

# 1.4.数据库的安装

  • mysql、mongodb、redis

  • MySQL是一个轻量级的关系型数据库

  • MongoDB是由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象,它的字段值可以包含其他文档、数组及文档数组

  • Redis是一个基于内存的高效的非关系型数据库。推荐下载Redis Desktop Manager可视化管理工具,来管理Redis

# 1.5.存储库的安装

  • PyMySQL、PyMongo、redis-py、RedisDump

  • MySQL需要安装PyMySQL、MongoDB需要安装PyMongo

  • 对于Redis来说,我们要使用redis-py库莱与其交互

  • RedisDump是一个用于Redis数据导入/导出的工具,是基于Ruby实现的

# 1.6.Web库的安装

  • Flask、Tornado

  • Flask是一个轻量级的Web服务程序,它简单、易用、灵活

  • Tornado是一个支持异步的Web框架,通过使用非阻塞I/O流,可以支撑成千上万的开放连接,效率非常高

# 1.7.App爬取相关库的安装

  • Charles、mitmproxy、Appium

  • Charles是一个网络抓包工具,相比Fiddler,其功能更为强大,而且跨平台支持得更好,可以选用它作为主要的移动端抓包工具

  • mitmproxy是一个支持HTTP和HTTPS的抓包程序,类似Fiddler、Charles的功能,只不过它通过控制台的形式操作

  • Appium是移动端的自动化测试工具,类似前面所说的Selenium,利用它可以驱动Android、iOS等设备完成自动化测试,比如模拟点击、滑动、输入等操作

# 1.8.爬虫框架的安装

  • pyspider、Scrapyd、Scrapy-Splash、Scripy-Redis

  • pyspider是国人binux编写的强大的网络爬虫框架,它带有强大的WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时支持多种数据库后端、多种消息队列,另外还支持JavaScript渲染页面的爬取

  • Scrapy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有Twisted14.0、lxml3.4和pyOpenSSL0.14

  • Scrapy-Splash是一个Scrapy中支持JavaScript渲染的工具

  • Scrapy-Redis是Scrapy的分布式扩展模块

# 1.9.部署相关库的安装

  • Docker、Scrapyd-Client、Scrapyd API、Scrapyrt、Gerapy

  • Docker是一种容器技术,可以将应用和环境等进行打包,形成一个独立的、类似于iOS的App形式的“应用”

  • Scrapyd是一个部署和运行Scrapy项目的工具,可以将写好的Scrapy项目上传到云主机并通过API来控制它的运行

  • Scrapyrt为Scrapy提供了一个调度的HTTP接口,不需要再执行Scrapy命令而是通过请求一个HTTP接口来调度Scrapy任务了

  • Gerapy是一个Scrapy分布式管理模块

# 第二章 爬虫基础

# 2.1.HTTP基本原理

  • URI、URL

  • URI统一资源标志符;URL统一资源定位符;

  • URL是URI的子集

  • HTML超文本

  • 在浏览器里看到的网页就是超文本解析而成的

  • HTTP、HTTPS

  • 访问资源需要的协议类型

  • HTTP用于从网络传输超文本数据到本地浏览器的传送协议,它能保证高效而准确的传送超文本文档

  • HTTPS是以安全为目标的HTTP通道

  • 请求过程

  • 打开Chrome浏览器,右击并选择“检查”项,即可打开浏览器的开发者工具

  • 请求

  • 请求由客户端向服务端发出,可以分为4部分内容:请求方法、请求地址、请求头、请求体

  • 常见的请求方法有两种:GET和POST

  • 请求的网址,即统一资源定位符URL

  • 请求头用来说明服务器要使用的附加信息,比较重要的信息由Cookie、Referer、User-Agent等

  • 请求体一般承载的内容是POST请求中的表单数据

  • 响应

  • 响应,由服务端返回客户端,可以分为三部分:响应状态码、响应头和响应体

  • 响应头包含了服务器对请求的应答信息,如Content-Type、Server、Set-Cookie等

  • 最重要的当属响应体的内容了

# 2.2.网页基础

  • 组成

  • HTML相当于骨架,JavaScript相当于肌肉,CSS相当于皮肤

  • 网页包括文字、按钮、图片和视频等各种复杂的元素,其基础架构就是HTML

  • CSS即层叠样式表,“层叠”是指当在HTML中引用了数个样式文件,并且样式发生冲突时,浏览器能依据层叠顺序处理,“样式”指网页中文字大小、颜色、元素间距、排列等格式

  • 网页里看到的一些交互和动画效果,如下载进度条、提示框、轮播图等就是JavaScript的功劳

  • 结构

  • 节点、节点树

  • 所有标签定义的内容都是节点,他们构成了一个HTML DOM树

  • W3C DOM标准被分为3个不同的部分:核心DOM针对任何结构化文档的标准模型;XML DOM针对XML文档的标准模型;HTML DOM针对HTML文档的标准模型

  • HTML文档中德所有内容都是节点:整个文档是一个文档节点,每个HTML元素是元素节点,HTML元素内的文本是文本节点,每个HTML属性是属性节点,注释是注释节点

  • 选择器

  • 使用CSS选择器来定位节点

  • CSS选择器还支持嵌套选择

# 2.3.爬虫的基本原理

  • 概述

  • 爬虫就是获取网页并提取和保存信息的自动化程序

  • 步骤:获取网页、提取信息、保存数据、自动化程序

  • 能抓的数据

  • 对应各自的URL,是基于HTTP或HTTPS协议的,只要是这种数据,爬虫都可以抓取

  • JavaScript渲染页面

# 2.4.会话和Cookies

  • 静态网页和动态网页

  • 动态网页可以动态解析URL中参数的变化,关联数据库并动态呈现不同页面内容,还可以实现用户登录和注册的功能

  • 无状态HTTP

  • HTTP协议对事务处理是没有记忆功能的,也就是说服务器不知道客户端是什么状态

  • 会话Cookie就是把Cookie放在浏览器内存里,浏览器在关闭后该Cookie即失效;持久Cookie则会保存到客户端的硬盘中,下次还可以继续使用,用于保持用户登录状态

# 2.5.代理的基本原理

  • 基本原理

  • 服务器会检测某个IP在单位时间内的请求次数,如果超过这个阈值,就会直接拒绝服务,返回一些错误信息

  • 代理服务器的功能是代理网络信息

  • 代理作用

  • 代理的作用:突破自身IP的访问限制;访问一些单位或团体内部资源;提高访问速度;隐藏真实IP

  • 爬虫代理

  • 使用代理隐藏真实的IP,让服务器误以为是代理服务器在请求自己

  • 代理分类

  • 根据协议分类:FTP代理、SSL/TLS代理、RTSP代理、Telnet代理、POP3/SMTP代理、SOCKS代理

  • 根据匿名程度区分:高度匿名代理(原封不动的转发)、普通匿名代理、透明代理、间谍代理

  • 代理设置

  • 使用网上的免费代理;使用付费代理服务;ADSL拨号

# 第三章 基本库的使用

  • 最基础的HTTP库有urllib、httplib2、requests、treq等

# 3.1.使用urllib

  • 发送请求、处理异常、解析链接、分析Robots协议

  • 包含如下4个模块:request最基本的HTTP请求模块,可以用来模拟发送请求;error异常处理模块,可以捕获异常然后进行重试或其他操作以保证程序不会意外终止;parse工具模块,提供了许多URL处理方法比如拆分、解析、合并等;robotparser主要用来识别网站的robots.txt文件然后判断哪些网站可以爬

  • 高级用法有各种Handler子类继承BaseHandler,如HTTPDefaultErrorHandler用于处理HTTP响应错误,错误都会抛出HTTPError类型的异常;HTTPRedirectHandler用于处理重定向;HTTPCookieProcessor用于处理Cookies;ProxyHandler用于设置代理;HTTPPasswordMgr用于管理密码;HTTPBasicAuthHandler用于管理认证

  • parse模块支持如下协议的URL处理:file、ftp、gopher、hdl、http、https、imap、mailto、mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、sip、sips、snews、svn、svn+ssh、telnet和wais

  • Robots协议也称爬虫协议、机器人协议,全名叫做网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取

# 3.2.使用requests

  • 基本用法:GET请求抓取网页、JSON数据、二进制数据,POST请求添加headers处理响应

  • 高级用法:文件上传files字段,cookies获取与设置,会话维持Seesion对象,SSL证书验证verify参数,代理设置proxies参数,超时设置timeout参数,身份认证auth类,预请求prepared request对象

# 3.3.正则表达式

  • match()匹配,search()扫描,findall()返回所有,sub()替换,compile()编译

# 3.4.抓取猫眼电影排行

# 第四章 解析库的使用

# 4.1.使用XPath

  • 一门在XML文档中查找信息的语言

  • 所有节点//*,子节点/,父节点..,属性匹配[@class=''],文本获取text(),属性获取@href,属性多值匹配li[contains(@class, 'itm')],多属性匹配li[contains(@class, 'itm') and @name='itm'],按序选择[last()]、[position()❤️],节点轴选择ancestor、descendant、follow-sibling

# 4.2.使用Beautiful Soup

  • 强大的解析工具,借助网页的结构和属性等特性解析网页

  • 节点选择器:选择元素soup.p、soup.title;提取信息soup.title.name、soup.p.attrs['name']、soup.p.string;嵌套选择soup.head.title.string;关联选择soup.p.contents、soup.p.children、soup.a.parent、soup.a.next_sibling、list(soup.a.parents)[0].attrs['class']

  • 方法选择器:find_all(name='ul')、find_all(attrs={'id': 'list-1'})、find_all(text=re.compile('link'));find()、find_parents()、find_next_siblings、find_next()

  • CSS选择器:select('li')、select('ul')[0].attrs['id']、select('ul')[0].get_text()

# 4.3.使用pyquery

  • 多种初始化方式:传入字符串、传入url、传入文件名

  • 基本CSS选择器:doc("#container .list li")

  • 查找节点:find('li')、children('.active')、parent()、siblings()、doc('li').items()

  • 获取信息:a.attr('href')、doc('.active a').text()

  • 节点操作:addClass('active')、attr('name', 'link')、doc.find('p').remove()

  • 伪类选择器:doc('li:first-child')、doc('li:gt(2)')

# 第五章 数据存储

# 5.1.文件存储

  • Text、JSON、CSV

  • TXT文本存储:with open()、file.write()、file.close()

  • JSON文件存储:json.loads()、json.dumps()

  • CSV文件存储:csv.writer(csvfile)、writer.writerow(['id', 'name'])、csv.reader(csvfile)

# 5.2.关系型数据库存储

  • MySQL

  • 连接connect()、获取游标cursor()、执行execute()、关闭close()、事务commit()和rollback()

# 5.3.非关系型数据库存储

  • MongoDB、Redis

  • Mongo存储:连接pymongo.MongoClient('mongodb://localhost:/27017');指定数据库client.test;指定集合db.students;插入collection.insert(student);查询collection.find_one({'name': 'Mike'});计数collection.find().count();更新collection.update_one(condition, {'$inc': {'age': 1}});删除collection.remove({'name': 'Kevin'})

  • Redis存储:连接StrictRedis(host='localhost', port=6379, db=0, password='xxx');键操作exists(name)、type(name)、set(name, value)

  • RedisDump提供两个可执行命令,redis-dump用于导出数据,redis-load用于导入数据

# 第六章 Ajax数据爬取

# 6.1.什么是Ajax

  • 异步的JavaScript和XML

  • 基本原理:发送Ajax请求到网页更新的过程分为3步发送请求、解析内容、渲染网页

# 6.2.Ajax分析方法

  • 特殊的请求类型xhr

  • 点击请求查看Request URL、Request Headers、Response Headers、Response Body

# 6.3.Ajax结果提取

# 6.4.分析Ajax爬取今日头条街拍美图

# 第七章 动态渲染页面爬取

  • Python提供了许多模拟浏览器运行的库,如Selenium、Splash、PyV8、Ghost等

# 7.1.Selenium的使用

  • 可以驱动浏览器执行特定的动作,可以获取浏览器当前呈现的页面源代码

  • 基本使用:browser=webdriver.Chrome();brower.get('https://www.baidu.com');

  • 声明浏览器对象:from selenium import webdriver; browser = webdriver.Firefox()

  • 访问页面:browser.get()、browser.close()

  • 查找节点:browser.find_element_by_id('q')、browser.find_elements_by_css_selector('.service-bd li')

  • 节点交互:输入文字send_keys()、清空文字clear()、点击按钮click()

  • 动作链:鼠标拖拽actions = ActionChains(browser); actions.drag_and_drop(source, target); actions.perform();

  • 执行JavaScript:browser.execute_script('alert("hah")')

  • 获取节点信息:获取属性get_attribute()、获取文本值get_text()、获取id位置标签名等等element.tag_name

  • 切换iframe:browser.switch_to.frame('iframeResult')

  • 延时等待:browser.implicitly_wait(10)隐式等待;wait.until(EC.element_to_be_clickable(By.CSS_SELECTOR, '.btn-search'))显式等待;

  • 前进后退:browser.back()、browser.forward()

  • Cookies:browser.get_cookies()、browser.add_cookie({'name': 'bob'})

  • 选项卡管理:browser.switch_to_window(browser.window_handles[1])

  • 异常处理:try except来捕获异常

# 7.2.Splash的使用

  • 异步方式处理多个网页渲染过程,获取渲染后页面源代码或截图。通过关闭图片渲染或使用block规则来加速页面渲染速度,可执行特定的JavaScript脚本,可通过Lua脚本来控制页面渲染过程,获取渲染详细过程并通过HAR格式呈现

  • Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库

  • Splash对象属性:args加载时配置参数、js_enabled执行开关JavaScript、resource_timeout加载超时时间、images_enabled是否加载图片、plugins_enabled浏览器插件是否开启、scroll_position控制页面滚动

  • Splash对象的方法:go()请求某个链接、wait()控制页面的等待时间、jsfunc()直接调用JavaScript定义的方法、evaljs()执行JavaScript代码并返回最后的执行结果、runjs()执行JavaScript代码更偏向于执行某些动作或声明某些方法、autoload()设置每个页面自动加载的对象、call_later()通过设置定时任务和延时时间来实现任务延时执行、http_get()模拟发送HTTP的GET请求、set_content()设置页面的内容、html()获取网页的源代码、png()获取PNG格式的网页截图、har()获取页面加载过程描述、get_cookies()获取当前页面的Cookies、set_viewport_size()设置当前浏览器页面的大小、set_custom_headers()设置请求头、select_all()选中所有符合条件的节点、mouse_click()模拟鼠标点击操作

  • Splash API调用:render.html用于获取JavaScript渲染的页面的HTML代码、render.png获取网页截图、render.har()获取页面加载的HAR数据、render.json()获取接口返回的响应数据、execute()最为强大的接口

# 7.3.Splash负载均衡配置

  • 搭建一个负载均衡器来把压力分散到各个服务器上

  • 配置负载均衡:upstream定义服务集群配置、weight指定各个服务的权重

# 7.4.使用Selenium爬取淘宝商品

# 第八章 验证码的识别

# 8.1.图形验证码的识别

  • 对一些有干扰的图片做一些灰度和二值化处理,会提高图片识别的正确率

  • 用tessercr库识别该验证码

  • 要将原图先转换为灰度图像,然后再指定二值化阈值

# 8.2.极验滑动验证码的识别

  • 模拟点击验证按钮识别滑动缺口的位置模拟拖动滑块

  • 识别并通过极验验证码的验证,包括分析识别思路、识别缺口位置、生成滑块拖动路径、模拟实现滑块拼合通过验证等步骤

  • 极验验证码广泛应用于直播视频、金融服务、电子商务、游戏娱乐、政府企业等各大类型网站

  • 极验验证码还增加了机器学习的方法来识别拖动轨迹

  • 官方网站的安全防护有如下几点说明:三角防护之防模拟、三角防护之防伪造、三角防护之防暴力

  • 采用直接模拟浏览器动作的方式来完成验证

  • 验证码图片缺口的四周边缘有明显的断裂边缘,边缘与边缘周围有明显的区别

# 8.3.点触验证码的识别

  • 借助在线验证码平台

  • 12306就是典型的点触验证码

  • 一个专门提供点触验证码服务的站点TouClick

  • 识别的思路:一是文字识别;二是图像识别;

# 8.4.微博宫格验证码的识别

  • 新型交互式验证码,每个宫格之间会有一条指示连线,指示了应该的滑动轨迹

  • 获取模板、模板匹配、模拟拖动

# 第九章 代理的使用

# 9.1.代理的设置

  • response=request.get('http://xxx.;')

  • Selenium同样是可以设置代理,包括两种方式:一种是有界面浏览器如Chrome;另一种是无界面浏览器如PhantomJS

# 9.2.代理池的维护

  • 存储模块、获取模块、检测模块、接口模块

  • 存储模块使用Redis的有序集合,用来做代理的去重和状态标识,同时它也是中心模块和基础模块,将其他模块串联起来

  • 获取模块定时从代理网站获取代理,将获取的代理传递给存储模块,并保存到数据库

  • 检测模块定时通过存储模块获取所有代理,并对代理进行检测,根据不同的检测结果对代理设置不同的标识

  • 接口模块通过Web API提供服务接口,接口通过连接数据库并通过Web形式返回可用的代理

# 9.3.付费代理的使用

  • 迅代理、阿布云代理

  • 讯代理上可供选购的代理类别:优质代理、独享动态、独享秒切、动态混拨、优质定制

# 9.4.ADSL拨号代理

  • 代理池可以挑选出许多可用代理,但是常常其稳定性不高、响应速度慢

  • 要追求更加稳定的代理,就需要购买专有代理或者自己搭建代理服务器

  • ADSL非对称数字用户环路,它的上行和下行带宽不对称,采用频分复用技术把普通的电话线分成了电话、上行和下行3个相对独立的信道,从而避免了相互之间的干扰

  • ADSL通过拨号的方式上网,需要输入ADSL账号和密码,每次拨号就更换一个IP

  • 首先需要成功安装Redis数据库并启动服务,另外还需要安装requests、redis-py、Tornado库

  • 要做的两件事:一是怎样将主机设置为代理服务器,二是怎样实时获取拨号主机的IP

  • 设计的架构要考虑支持多主机的问题

  • 数据库要做的就是定时对每台主机的代理进行更新,而更新时又需要拨号主机的唯一标识,根据主机标识查出这条数据,然后将这条数据对应的代理更新

# 9.5.使用代理爬取微信公众号文章

# 第十章 模拟登录

  • 实际是在客户端生成了Cookies。而Cookies里面保存了SessionID的信息,登录之后的后续请求都会携带生成后的Cookie发送给服务器

# 10.1.模拟登录并爬取GitHub

  • Headers里面包含了Cookies、Host、Origin、Referer、User-Agent等信息

  • Form Data包含了5个字段,commit是固定的字符串Sign in,utf-8是一个勾选字符,authenticity_token较长,其初步判断是一个Base64加密的字符串,login是登录的用户名,password是登录的密码

  • 访问登录页面要完成两件事:一是通过此页面获取初始的Cookies,而是提取出authenticity_token

# 10.2.Cookies池的搭建

  • 不登录直接爬取的一些弊端:1、设置了登录限制的页面无法爬取;2、一些页面和接口虽然可以直接请求,但是请求一旦频繁,访问就容易被限制或者IP直接被封

  • Cookies池需要有自动生成Cookies、定时检测Cookies、提供随机Cookies等几大核心功能

  • 思路:Cookies池中保存了许多账号和登录后的Cookies信息,并且Cookies池还需要定时检测每个Cookies的有效性,如果某Cookies无效,那就删除该Cookies并模拟登陆生成新的Cookies

  • 存储模块负责存储每个账号的用户名密码以及每个账号对应的Cookies信息,同时还需要提供一些方法来实现方便的存取操作

  • 生成模块负责生成新的Cookies。会从存储模块逐一拿取账号的用户名和密码,然后模拟登录目标页面,判断登陆成功,就将Cookies返回并交给存储模块存储

  • 检测模块需要定时检测数据库中的Cookies。需要设置一个检测链接,不同的站点检测链接不同,检测模块会逐个拿取账号对应的Cookies去请求链接,如果返回的状态是有效的,那么此Cookies没有失效,否则Cookies失效并移除

  • 接口模块需要用API来提供对外服务的接口。由于可用的Cookies可能有多个,可以随机返回Cookies的接口,这样保证每个Cookies都有可能被取到。Cookies越多,每个Cookies被取到的概率就会越小,从而减少被封号的风险

# 第十一章 App的爬取

  • App的爬取相比Web端爬取更加容易,反爬虫能力没那么强,而且数据大多是以JSON形式传输,解析更加简单

  • 常用的抓包软件有WireShark、Fiddler、Charles、mitmproxy、AnyProxy等,他们的原理基本是相同的

# 11.1.Charles的使用

  • 相比Fiddler来说,Charles的功能更强大,而且跨平台支持更好

# 11.2.mitmproxy的使用

  • mitmproxy是一个支持HTTP和HTTPS的抓包程序,有类似Fiddler、Charles的功能,只不过它是一个控制台的形式操作

  • mitmproxy有如下几项功能:拦截HTTP和HTTPS请求和响应;保存HTTP会话并进行分析;模拟客户端发起请求,模拟服务器返回响应;利用反向代理将流量转发给指定的服务器;支持Mac和Linux上的透明代理;利用Python对HTTP请求和响应进行实时处理

  • mitmproxy还提供了命令行式的编辑功能

  • mitmproxy的强大之处体现在它的另一个工具mitmdump

# 11.3.mitm爬取“得到”App电子书信息

# 11.4.Appium的基本使用

  • Appium是一个跨平台移动端自动化测试工具,可以非常便捷地为iOS和Android平台创建自动化测试用例

# 11.5.Appium的基本使用

# 11.6.Appium+mitmdump爬取京东商品

# 第十二章 pyspider框架的使用

# 12.1.pyspider框架介绍

  • 国人binux编写的强大网络爬虫系统

  • 带有强大的WebUI、脚本编辑器、任务监控器、项目管理器、结果处理器

  • 与scrapy的比较:提供了WebUI给编写和调试用;调试非常简便;支持PhantomJS来进行JavaScript渲染页面的采集;内置了pyquery作为选择器;可扩展程度不足;

  • 如果要快速实现一个页面的抓取,推荐使用pyspider;如果要应对反爬程度很强、超大规模的抓取,推荐使用scrapy

  • pyspider的架构主要分为Scheduler(调度器)、Fetcher(抓取器)、Processer(处理器)三个部分,整个爬取过程受到Monitor(监控器)的监控,抓取的结果被Result Worker(结果处理器)处理

  • Scheduler发起任务调度,Fetcher负责抓取网页内容,Processer负责解析网页内容,然后将生成的Request发给Scheduler进行调度,将生成的提取结果输出保存

# 12.2.pyspider的基本使用

# 12.3.pyspider用法详解

# 第十三章 Scrapy框架的使用

# 13.1.Scrapy框架介绍

  • 基于Twisted的异步处理框架、功能强大爬取效率高,相关扩展组件多,可配置和可扩展高

# 13.2.Scrapy入门

# 13.3.Selector的用法

# 13.4.Spider的用法

# 13.5.Downloader Middleware的用法

# 13.6.Spider Middleware的用法

# 13.7.Item Pipeline的用法

# 13.8.Scrapy对接Seleium

# 13.9.Scripy对接Splash

# 13.10.Scrapy通用爬虫

# 13.11.Scrapyrt的使用

# 13.12.Scrapy对接Docker

# 13.13.Scrapy爬取新浪微博

# 第十四章 分布式爬虫

# 准备工作、搭建Redis服务器、部署代理池和Cookie池、配置Scrapy-redis、配置存储目标、运行结果

# 14.1.分布式爬虫原理

# 14.2.Scrapy-Redis源码解析

# 14.3.Scrapy分布式实现

# 14.4.Bloom Filter的对接

# 第十五章 分布式爬虫的部署

# 15.1.Scrapyd分布式部署

  • Scrapyd提供一系列HTTP接口来帮助我们部署、启动、停止、删除爬虫程序,支持版本管理,可以管理多个爬虫任务

# 15.2.Scrapyd-Client的使用

# 15.3.Scrapyd对接Docker

# 15.4.Scrapyd批量部署

# 15.5.Gerapy分布式管理

  • Gerapy是一个基于Scrapyd、Scrapyd API、Django、Vue搭建的分布式爬虫管理框架

# 写在后面

  • pdf书籍、笔记思维导图、资料打包下载地址:暂无
  • 思维导图在线查看:点击打开
  • 得到电子书地址:暂无