python爬虫控制aiohttp并发数量方式
目录
- 前言
- 解决上述问题
- 目前想到两个方法
- 实验结果
- 总结
前言
在使用aiohttp并发访问多个页面时效率,明显比串行requests快很多,
但是也存在一个问题,就是网站检测到短时间内请求的数量过多会导javascript致页面请求不成成功,
页面返回429 (too many requests)。
解决上述问题
目前想到两个方法
1、控制请求的时间,用sleep延时,来消耗每一次访问的时间,减少单位时间内的访问量,这样肯定是可以,但效率太低
2、控制并发数量,控制并发数量,普遍推荐用信号量来控制使用方法也比较简单如下:
from asyncio import tasks from aiohttp.client import ClientSession from lXML import etree from time import sleep import time import asyncio import aiohttp async def read_page_list(page_num,sem): params = { 'page':page_num, } #通过连接池控制并发数量 limit 默认为100 0 为无限制 async with sem: try: async with aiohttp.ClientSession() as session: async with session.get(url=url,params=params,headers=headers) as response: text = await response.text() except Exception as e: print('exception:',e) tree = etree.html(text) page_list = tree.xpath('//*[@id="thumbs"]/section[1]/ul/li') # break for li in page_list: pic_small_url = li.xpath('.//img/@data-src')[0] # print(pic_small_url,type(pic_small_url)) # pic_small_url = str(pic_small_url) if 'small' in pic_small_url: temp_url = pic_small_url.replace(编程客栈'small','full') a = temp_url.rfind('/') temp_url1= temp_url[:a] pic_full_url = temp_url1+'/wallhaven-'+temp_url.split('/')[-1] pic_full_url = pic_full_url.replace('th','w') # print(page_num,pic_full_url) pic_list.append(pic_full_url) else: print(page_num,'find small error',pic_small_url) print(page_num,len(page_list),response.status) # await asyncio.sleep(1) #这里可以用硬延时来控制程序的访问速度,进而控制单位时间内并发的数量 # sleep(0.5) #定义信号量 sem = 编程客栈asyncio.Semaphore(2) start = time.time() #建立任务列表 tasks = [loop.create_task(read_page_list(i,sem)) for i in range(1,20)] loop.run_unti编程客栈l_complete(asyncio.wait(tasks)) print('get page list use time:',time.time()-start)
实验结果
如下:
- 经试android验只有当请求页面20个 sem=1时才不会出现服务器返回429.
- 当把请求页面数量改为10 sem=5是就不会出现服务返回429的情况
总结
以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程客栈(www.devze.com)。
精彩评论