博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫--scrapy+redis分布式爬取58同城北京全站租房数据
阅读量:5208 次
发布时间:2019-06-14

本文共 744 字,大约阅读时间需要 2 分钟。

作业需求:

1.基于Spider或者CrawlSpider进行租房信息的爬取2.本机搭建分布式环境对租房信息进行爬取3.搭建多台机器的分布式环境,多台机器同时进行租房数据爬取建议:用Pycharm开发

 爬取北京全站租房信息

爬取全站用基于crawlspider建立爬虫文件

 

北京出租下的70页信息进行爬取:

https://bj.58.com/chuzu/

-------------------------------------------

分析页码网页

https://bj.58.com/chuzu/pn2      bj代表北京

包括四种类型的房源:个人房源;经纪人;安选房源;品牌公寓

个人房源:

 

经纪人:

 

 安选房源:

品牌公寓:不同

 

详情页面

 

class ZufangSpider(CrawlSpider):    name = 'zufang'    #allowed_domains = ['https://www.bj.58.com']    start_urls = ['https://bj.58.com/chuzu/pn1']    #('https://bj.58.com/chuzu/pn2/')    rules = (        Rule(LinkExtractor(allow=r'https://bj.58.com/chuzu/pn\d+'), callback='parse_item', follow=True),    )    def parse_item(self, response):        print(response)

 

 

 

 

转载于:https://www.cnblogs.com/foremostxl/p/10103233.html

你可能感兴趣的文章
职业规划历程
查看>>
web前端面试试题总结---css篇
查看>>
Delegate
查看>>
form表单传输多余参数
查看>>
鼠标滚轮改变文本框值的jQuery插件cutePsWheel发布
查看>>
docker使用记录一日常使用的命令
查看>>
Excel导入oracle的几种方法
查看>>
.NET 4.5 基类库中的新增功能
查看>>
Django项目部署详细步骤
查看>>
44、Search contract
查看>>
王阳明-02
查看>>
(light oj 1024) Eid (最小公倍数)
查看>>
java运算符和表达式
查看>>
phpcms 搜索结果页面栏目不显示解决 方法
查看>>
[Laravel-Swagger]如何在 Laravel 项目中使用 Swagger
查看>>
PLSQL Developer连接不上64位Oracle 10g的解决办法
查看>>
F5负载均衡架构图
查看>>
webAPI获得链接客户端IP地址
查看>>
《C和指针》读书笔记——第二章 基本概念
查看>>
求最大公约数和最小公倍数
查看>>