用Python爬取指定关键词的微博

2022-12-05 09:47 开发作者：网络整理

一、分析页面

我们此次选择的是从移动端来对微博进行爬取。移动端的反爬就是信息校验反爬虫的cookie反爬虫，所以我们首先要登陆获取cookie。

用Python爬取指定关键词的微博

登陆过后我们就可以获取到自己的cookie了，然后我们来观察用户是如何搜索微博内容的。

平时我们都是在这个地方输入关键字，来进行搜索微博。

用Python爬取指定关键词的微博

我通过在开发者模式下对这个页面观察发现，它每次对关键字发起请求后，就会返回一个XHR响应。

用Python爬取指定关键词的微博

我们现在已经找到数据真实存在的页面了，那就可以进行爬虫的常规操作了。

二、数据采集

在上面我们已经找到了数据存储的真实网页，现在我们只需对该网页发起请求，然http://www.cppcns.com后提取数据即可。

1、发起请求

通过对请求头进行观察，我们不难构造出请求代码。

用Python爬取指定关键词的微博

代码如下：

key = input("请输入爬取关键字:")
for page in range(1,10):
   params = (
       ('containerid', f'100103type=1&q={key}'),
       ('page_type', 'searchall'),
       ('page', str(page)),
   )

   response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params)

2、提取数据

从上面我们观察发现这个数据可以转化成字典来进行爬取，但是经过我实际测试发现，用正则来提取是最为简单方便的，所以这里展示的是正则提取的方式，有兴趣的读者可以尝试用字典方式来提取数据。

代码如下：

http://www.cppcns.com

r = response.text
title = re.findall('"page_title":"(.*?)"',r)
comments_count = re.findall('"comments_count":(.*?),',r)
attitudes_count = re.findall('"attitudes_count":(.*?),',r)
for i in range(len(title)):
   print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i])

在这里有一个小问题要注意，微博的标题是用Unicode编码的，如果直接爬取存储，将存储的是Unicode编码，在这里要www.cppcns.com感谢大佬—小明哥的帮助，志斌在网上搜了好多解决方法都没有成功，最后小明哥一个简单的函数就给解决了，实在是佩服！

解决方案：用eval()来输出标题，就可以将RIPfThfnVzUnicode转换成汉字了。

三、小结

1. 本文详细介绍了如何用python指定关键字爬取微博，有兴趣的读者可以尝试自己动手练习一下。

2. 本文仅供读者学习使用，不做其他用途！

到此这篇关于用Python爬取指定关键词的微博的文章就介绍到这了,更多相关Python爬取指定关键词的微博内容请搜索我们以前的文RIPfThfnVz章或继续浏览下面的相关文章希望大家以后多多支持我们！

继续阅读：Python爬取指定关键词 Python爬取指定关键词的微博

用Python爬取指定关键词的微博

目录

一、分析页面

二、数据采集

1、发起请求

2、提取数据

三、小结

更多精彩内容

精彩评论

最新开发

C++分布式语音识别服务实践方案

C#屏幕录制中遇到黑屏问题的原因和解决方法

C#利用.NET实现Word文档到HTML的高效转换

SpringBoot Maven的操作与配置图文教程

Spring Boot 整合第三方组件Redis、MyBatis、Kafka 实战案例指南

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）