爬虫--scrapy+redis分布式爬取58同城北京全站租房数据-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

爬虫--scrapy+redis分布式爬取58同城北京全站租房数据

阅读量：5208 次

发布时间：2019-06-14

本文共 744 字，大约阅读时间需要 2 分钟。

作业需求:

1.基于Spider或者CrawlSpider进行租房信息的爬取2.本机搭建分布式环境对租房信息进行爬取3.搭建多台机器的分布式环境，多台机器同时进行租房数据爬取建议：用Pycharm开发

爬取北京全站租房信息

爬取全站用基于crawlspider建立爬虫文件

对北京出租下的70页信息进行爬取：

https://bj.58.com/chuzu/

-------------------------------------------

分析页码网页

https://bj.58.com/chuzu/pn2 bj代表北京

包括四种类型的房源：个人房源；经纪人；安选房源；品牌公寓

个人房源：

经纪人：

安选房源：

品牌公寓：不同

详情页面

class ZufangSpider(CrawlSpider):    name = 'zufang'    #allowed_domains = ['https://www.bj.58.com']    start_urls = ['https://bj.58.com/chuzu/pn1']    #('https://bj.58.com/chuzu/pn2/')    rules = (        Rule(LinkExtractor(allow=r'https://bj.58.com/chuzu/pn\d+'), callback='parse_item', follow=True),    )    def parse_item(self, response):        print(response)

转载于:https://www.cnblogs.com/foremostxl/p/10103233.html

你可能感兴趣的文章

职业规划历程

web前端面试试题总结---css篇

form表单传输多余参数

鼠标滚轮改变文本框值的jQuery插件cutePsWheel发布

docker使用记录一日常使用的命令

Excel导入oracle的几种方法

.NET 4.5 基类库中的新增功能

Django项目部署详细步骤

44、Search contract

（light oj 1024） Eid （最小公倍数）

java运算符和表达式

phpcms 搜索结果页面栏目不显示解决方法

[Laravel-Swagger]如何在 Laravel 项目中使用 Swagger

PLSQL Developer连接不上64位Oracle 10g的解决办法

F5负载均衡架构图

webAPI获得链接客户端IP地址

《C和指针》读书笔记——第二章基本概念

求最大公约数和最小公倍数

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-11-22 22:04:30 当前IP: 18.118.227.199 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我