利用python获取想要搜索的数据

2023-05-08 09:36 开发作者：朦胧的雨梦

前言

大家在日常生活中经常需要查找不同的事物的相关信息，今天我们利用python来实现这一个小功能，同时呢，也是大家对基础知识的一个综合实践，相信有不少小伙伴已经准备跃跃欲试了，话不多说，开干！

本次爬虫思路

获取url
通过请求拿到响应
处理反爬
修改传递参数
完善程序

urllib库

1.urllib库的介绍

urllib库是Python的标准库，提供了一系列用于操作URL的功能开发者_JS教程，其大部分功能与requests库类似，也有一些特别的用法。

urllib库是Python标准库提供的一个用户操作URL的模块，Python3把原来Python 2的urilib库和Urllib 2库合并成了一个Urllib库，现在讲解的就是Python3中的Urllib库。

urllib.request——打开和读取URL；

urllib.error——包含Urllib.request各种错误的模块；

urlib.parse——解析URL；

urllib.robotparse——解析网站robots.txt文件。

2.urllib库的使用模板

import urllib.request     
url ='xxxxxxxxxxxx'   
#发送请求                
 request= urllib.request.Reqphpuest（url，data，header）      
 #得到响应
 response=urllib.request.urlopen（request）
 #解码
 content = response.read().decode() 
 #查看数据
 print(content)

3.使用urllib库获取数据

1. 获取URL：首先使用Chrome浏览器打开某度网页，随便输入一个：xxx,然后打开开发者工具（右键检查），切换到网络界面，清空记录，重新刷新页面，可以看到：

利用python获取想要搜索的数据

如此这个URL就是我们需要获取的URL：https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E6%B3%95%E8%A7%A3%E5%86%B3%E6%96%B9%E6%B3%95&fenlei=256&rsv_pq=0x8dc81b9f001c02d3&rsv_t=1c35crTFwJXLFoeU8nF33RDMyj9nX%2FofGDNqUmHapdGRlUDmKmo7610WDRno****&rqlang=en&rsv_dl=tb&rsv_sug3=7&rsv_enter=0&rsv_btype=i&inputT=2267&rsv_sug4=2878

分析：加粗的这一堆：就是法解决方法这几个关键字；

2.通过请求拿到响应：直接利用模板模拟浏览器发起请求：

利用python获取想要搜索的数据

突然发现我们没有拿到想要的数据。难道是我们程序写错了吗？

3. 处理反爬:莫急，俗话说人靠衣服马靠鞍，服务器就像大美女，你要打扮的帅帅的，才能获得美女的芳心，当然，这种方法是对于我们人来说的，你可别马上就给电脑喷香水啊，针对程序来说，我们就需要伪装，假装我是一个浏览器，那么，如何伪装呢？我们就需要携带一些参数，先试试这个：

user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/111.0.0.0 Safari/537.36（主要是我们电脑浏览器的名称，版本信息），再试一次：

利用python获取想要搜索的数据

成功“骗”过了服务器，这样就拿到了数据（高兴）,别着急，我们再思考一下，能不能通过修改一些参数，就让js我们想找哪些数据就拿哪些数据，好，接下来我们就分析它的参数：

修改传递参数：

利用python获取想要搜索的数据

wd：xx，它是这样传递我们输入的文字的，那么我们创造一个字典类型的键值对，发送请求时，再将这个参数拼接上去，这样不就实现了我们的需求嘛（特别注意编解码的问题）

利用python获取想要搜索的数据

哈哈，这里百度第二个安全验证出来了，根本原因是我们携带的一些参数有问题，因为还有一些参数在变，但是对于我们入门的童鞋处理起来不太友好，所以常用三种方法：

1.将wd后面的参数直接去掉；（成功率不高）

2.去掉HTTPS后面的是s，使用http协议；（成功率不高）

3.使用cookie；（比较稳定）

我选择使用第三种：

利用python获取想要搜索的数据

这样就利用urllib库实现了这个小功能。别着急，更简单的方法还在后面呢!

4.urllib库一些个人总结

1. urllib库在处理一些网址的时候比requests库更加快捷；

2. urllib库涉及编解码的问题，必须手动添加；

3. 使用起来代码行数多，比较笨重。

是不是感觉全是缺点，正因如此，我们的requests库应运而生，简单快捷方便，是对它最清晰的写照，更加的人性化，接下来正式介绍这一大杀器，同时也希望大家尽量使用 requests库来写爬虫（真的很好很好很好用！）。

requests库

5.requests库的介绍

requests库常用有这些功能：

1、Keep-Alive & 连接池

2、国际化域名和 URLwww.devze.com

3、带持久 Candroidookie 的会话

4、自动内容解码

5、优雅的 key/value Cookie

6、Unicode 响应体

7、HTTP(S) 代理支持

6.requests库的使用模板

import requests   
url ='xxxxxxxxxxxx' 
#发送请求                              
response = request.get(url， params，headers)  (get请求或者post请求)  
#根据响应的格式解码，非常智能
response.encoding=response.appareent_encoding

7.使用requests库获取数据

布置爬虫的步骤在urllib库使用的时候已经非常详细的解释了，在此不在赘述，步骤相同，大家可以尝试用模板自己写一下（我个人的代码放在最后了）。如果有哪里不懂得，可以在评论区留言，博主会尽全力解答。

利用python获取想要搜索的数据

8.requests库一些个人总结

1. requests库步骤简单；

2. 各种操作方法人性化，功能更加强大；

3. requests 库拥有完全自动化 Keep-alive 和 HTTP 连接池的功能,主要是突出Python的优雅二字。

9.个人建议（附代码）

1.部署爬虫时要先思考好大步骤，最好能把步骤写下来，然后一步一步逐步去写代码；

2.再仔细去浏览网页，确然好你爬的信息接口是哪个，是什么类型的请求，参数是什么，是存在网页本身还是二次加载进来的等等，一定要细心认真；

3.处理反爬时一般携带的参数就是：User-Agent，Cookie，Accept，Host，这几个，如果还是拿不到数据，那就是进阶了，暂时先不用管；

4.多观察几次请求，找到规律，实现规模式爬取（这也是爬虫的初心）

5.优化自己的程序，提高效率的同时又要避免被检测出来，多思考就会有灵感。

request库代码：

import requests

data = input('输入你想要查找的数据：').split()

url ='http://www.baidu.com/s'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36',
    'Cookie': 'BIDUPSID=CDE3B4BEE7AE0D336C4D0734E42BCF8B; PSTM=1664331801; BAIDUID=CDE3B4BEE7AE0D33996D27FED1DDB4DB:FG=1; BD_UPN=12314753; BDUSS=JNdXVzTXMyWmFKM0x1VWJ5eG9GUjg4UmVCRFQxY1dtejBPVDFBfjc0VHhYRnRqRVFBQUFBJCQAAAAAAAAAAAEAAACse3WjanNuZGJpZAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAjsAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAphpM2PxzzNjTT; BDUSS_BFESS=JNdXVzTXMyWmFKM0x1VWJ5eG9GUjg4UmVCRFQxY1dtejBPVDFBfjc0VHhYRnRqRVFBQUFBJCQAAAAAAAAAAAEAAACse3WjanNuZGJpZAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAPHPM2PxzzNjTT; newlogin=1; ZFY=utLrULRdQjGdhXHuTriamg7jZ2PZMLmnKmUCBUiVrTw:C; BAIDUID_BFESS=CDE3B4BEE7AE0D33996D27FED1DDB4DB:FG=1; BA_HECTOR=ag04ah242k2l2h0la0010ofe1ho8t901f; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; COOKIE_SESSION=765400_1_9_9_5_15_1_0_9_7_0_0_1292084_0_0_0_1668919087_1669684425_1669684425%7C9%234656831_6_1669684425%7C3; B64_BOT=1; BDRCVFR[7FEYkXni5q3]=mk3SLVN4HKm; BD_HOME=1; H_PS_PSSID=26350; BD_CK_SAM=1; PSINO=3; delPer=1; H_PS_645EC=3d48biiwjEvDlNFtMaUHuepsRu67OxRgPoEiOrMKvfRketUwB4GowDbv4KmDa%2BATHUgCCoc; baikeVisitId=e1f583c7-eb15-4940-a709-054666f30f48; BDSVRTM=443'
}

data = {
    'wd': data
}
response = requests.get(url=url, params=data, headers=headers)

response.encoding = response.apparent_encoding

print(response.text)

以上就是利用python获取想要搜索的数据的详细内容，更多关于python获取数据的资料请关注我们其它相关文章！

继续阅读：python数据 python获取搜索数据利用python获取想要的数据

利用python获取想要搜索的数据

目录

前言

本次爬虫思路

urllib库

1.urllib库的介绍

2.urllib库的使用模板

3.使用urllib库获取数据

4.urllib库一些个人总结

requests库

5.requests库的介绍

6.requests库的使用模板

7.使用requests库获取数据

8.requests库一些个人总结

9.个人建议（附代码）

更多精彩内容

精彩评论

最新开发

Go表达式引擎expr基础用法实战指南

浅谈Go语言中高效并发模式

go build -tags的其他用法命令详解

深度剖析C/C++单引号与双引号的本质区别

C++玫瑰花字符画项目实战教程

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）