博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
分布式爬虫(一)------------------分布式爬虫概述
阅读量:6229 次
发布时间:2019-06-21

本文共 459 字,大约阅读时间需要 1 分钟。

分布式爬虫概述


什么是分布式爬虫:

     多个爬虫分布在不同的服务器上,通过状态管理器进行统一调度,达到像URL去重等功能的爬虫系统

  

分布式爬虫的优点

  1) 充分利用多台机器的宽带加速

  2)充分利用多机器的IP加速爬取速度

 

Scrapy分布式爬虫原理

    单机Scrapy爬虫架构

  

分布式爬虫需要改进的Scrapy

    1)requests队列集中管理(在架构图中SCHEDULER中管理)

    2)URL去重集中管理  

    解决方法:

      requests队列存储在单机的内存当中,URL去重原理也是存储在内存当中的Set()集合中,解决这两个问题,

    可以将这个队列和集合存储在数据库中,进行统一的资源管理。

      在选择数据库时推荐使用Redis数据库,它是一个基于内存的数据库,将Requests队列和URL集合存储在内存,避免数据落地,提高效率

 

转载于:https://www.cnblogs.com/ruoniao/p/7308048.html

你可能感兴趣的文章
MySQL启动与停止[Linux]
查看>>
Go实现FastCgi Proxy Client 系列(四) keep-alive实现
查看>>
程序员必备神器
查看>>
解析:Parallels给Mac电脑带来的好处
查看>>
skycc淘宝客推广软件 V8.2免费版
查看>>
Navicat for MySQL 11 Mac安装教程
查看>>
Navicat 如何调整栏位结构
查看>>
食品安全溯源区块链解决方案探索
查看>>
关于Spring Data JPA的save()保存,MySQL字段默认值无效
查看>>
数据结构——二叉树(PHP)
查看>>
MySQL实时性能监控工具doDBA tools
查看>>
ListView 局部刷新实现思路
查看>>
JSON笔记之在PHP语言中使用JSON
查看>>
函数的指针
查看>>
Jquery AJAX使用踩坑小记
查看>>
ubuntu下安装Apache+PHP+Mysql
查看>>
Bootstrap 过渡效果(Transition)插件
查看>>
[Linux]-Linux 命令大全
查看>>
mysql将查询到的数据导出到Excel
查看>>
Android 切换系统语言源码分析
查看>>