Python的Scrapy框架基本使用详解

2023-12-07 09:06 开发作者：凌冰_

一、Scrapy框架使用

1. 创建scrapy项目

（不能有汉字，不能数字开头）

scrapy startproject Baidu

2. 创建爬虫文件

cd Baidu
scrapy  genspider wenda www.baidu.com

Python的Scrapy框架基本使用详解

注意： parse()是执行了start_url之后要执行的方法，方法中的response就是返回的对象。相当于response = requests.get或requests.post

3. 运行爬虫代码

scrapy crawl wenda

在parse（）函数打印一句话，运行后发现没有打印结果，原因是被一个叫robots.txt的文件给阻止了。

Python的Scrapy框架基本使用详解

解决：大平台的君子协议，只需在settings里将ROBOTSTXT_OBEY = True注释掉即可。

Python的Scrapy框架基本使用详解

再次运行

Python的Scrapy框架基本使用详解

4. scwww.devze.comrapy文档

scrapy官网：https://scrapy.org/

scrapy文档：https://doc.scrapy.org/en/latest/intro/tutorial.html

scrapy日志：https://docs.scrapy.org/en/latest/news.html

二、scrapy项目的结构

Python的Scrapy框架基本使用详解

四、response的属性和方法

response.text 获取响应的字符串(源码)
response.body 获php取响应的二进制数据(二进制javascript源码)
response.xpath 直接通过xpath解析response中的内容
response.extract() 提取selector对象的data所有属性值
response.extract_first() 提取selector列表的第一个数据
response.get() : 得到第一条数据
response.getall() :取出所有的数据，以列表的方式呈现

五、scrapy工作原理

引擎向spiders要url
引擎将要爬取的url给调度器
调度器会将url生成请求对象放入到指定的队列中
从队列中出队一个请求
引擎将请求交给下载器处理
下载器发送请求获取互联网数据
下载器将数据返回给引擎
引擎将数据再次给spiders
spiders通过xpath解析该数据，得到数据或url
spiders将数据或url给到引擎
引擎判断是数据还是url，若是数据，交给管道处理；若是url，交给调度器处理

Python的Scrapy框架基本使用详解

到此这篇关于python的Scrapy框架基本使用详解的文章就介绍到这了,更多相关Python的Scrapy框架内容请搜索编程客栈(wwpythonw.cppcns.com)以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程客栈(www.devze.com)！

继续阅读：Python Scrapy Scrapy 框架

Python的Scrapy框架基本使用详解

目录

一、Scrapy框架使用

1. 创建scrapy项目

2. 创建爬虫文件

3. 运行爬虫代码

4. scwww.devze.comrapy文档

二、scrapy项目的结构

四、response的属性和方法

五、scrapy工作原理

更多精彩内容

精彩评论

最新开发

Go中make函数和append函数的作用详解

使用C++设计开发一个功能完善的多进程管理器

C/C++ Qt监控文件状态变化方式

深入理解 C++ 的 std::initializer_list及使用场景分析

C语言memcpy函数用法详解:高效内存复制的实用工具

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）