Python实现对相同数据分箱的小技巧分享

2022-12-09 10:48 开发作者：小澜ovo

前言

博主最近工作中刚好用到数据分箱操作（对相同数据进行遍历比较，避免了全部遍历比较，大大减少了电脑IO次数，提高程序运行速度），翻了很多博文都没有找到解决方法，写一下我自己的解决思路！！！

什么是分箱？

简单点说就是将不同的东西，按照特定的条件放到一个指定容器里，比如水果把绿色的放一个篮子里，红色一个篮子等等，这个篮子就是箱，而水果就是数据颜色就是条件

什么样式的数据要进行分箱

数据主要分为连续变量和分类变量，分箱的操作主要针对于连续变量。

为什么要对数据进行分箱操作

稳定性，时间复杂度，看的舒服，提高准确度等等

思路

先给定 last 为列表第一个（并存入temp列表）,将后面的数据从第二个开始与 last 比较，如果相同存入 temp 中。

当不相同时，则将 last 切换为不同的那个数（并存入temp），并将 temp列表放入一个空列表中。

类型一：www.cppcns.com数字

实现效果

[1,1,1,2,2,2,3,3,4,4,5,5,5,5,5]

# 转变为
[[1, 1, 1], [2, 2, 2], [3, 3], [4, 4], [5, 5, 5, 5, 5]]

代码实现

box = [1,1,1,2,2,2,3,3,4,4,5,5,5,5,5]

last = box[0]
temp = [box[0]]
box_list = [temp]

for a in box[1::]:
    if a == last:
        temp.append(a)
    else:
        last = a
        temp = [a]
        box_list.append(temp)

print(box_list) # [[1, 1, 1], [2, 2, 2], [3, 3], [4, 4], [5, 5, 5, 5, 5]]

# 实现按每一个分箱列表遍历数据（而不用全部遍历）
for boxs in box_list:
    for i in boxs:
        print(i)

类型二：元组

实现效果

box = [('小黑','20','四川'),('小黑','21','北京'),('张三','18','上海'),('张三','22','上海'),('张三','30','北京'),('李四','10','广州')]

# 实现把名字相同的元组放入一个列表
[[('小黑', '20', '四川'), ('小黑', '21', '北京')], [('张三', '18', '上海'), ('张三', '22', '上海'), ('张三', '30', '北京')], [('李四', '10', '广州')]]

代码实现

box = [('小黑','20','四川'),('小黑','21','北京'),('张三','18','上海'),('张三','22','上海'),('张三','30','北京'),('李四','10','广州')]


last = box[0][0]
temp = [box[0]]
box_list = [temp]

for a in box[1::]:
    if a[0] == lashttp://www.cppcns.comt:
        temp.append(a)
    else:
        last = a[0]
     http://www.cppcns.com   temp = [a]
        box_list.append(temp)
       
print(box_list)    

# 实现按每一个分箱列表遍历数据（而不用全部遍历）
for boxs in box_list:
    for i in boxs:
        print(i[0]) # 0取的姓名，1取年龄，3取地址

附：利用Python的cut方法可以对数据进行分箱。

import pandas ahttp://www.cppcns.coms pd 
import numpy as np 
from pandas import Series,DataFrame

# 随机生成一组数据
score_list = np.random.randint(25,100,size = 20)  # 随机生成最小值25，最大值100的20个数据

# 分箱的区间
bins = [0,59,70,80,100]

# 分箱
score_cat = pd.cut(score_list,bins)

# 统计不同区间的个数
pd.value_countshttp://www.cppcns.com(score_cat)


# 生成一个空的DataFrame
df = DataFrame()
df['Score'] = score_list
df['Name'] =  [pd.util.testing.rands(5) for i in range(20)] # 生成20个姓名
df['Categories'] =pd.cut(df['Score'],bins,labels = ['不及格','一般','优秀','厉害']) 
# labels对应的是bins的

总结

到此这篇关于Python实现对相同数据分箱的文章就介绍到这了,更多相关Python相同数据分箱内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

继续阅读：python 分箱 python分箱代码数据挖掘分箱原理

Python实现对相同数据分箱的小技巧分享

目录

前言

思路

类型一：www.cppcns.com数字

类型二：元组

附：利用Python的cut方法可以对数据进行分箱。

总结

更多精彩内容

精彩评论

最新开发

Python Anaconda创建虚拟环境及Pycharm使用虚拟环境详解

基于FastAPI与LangChain开发Excel智能数据分析API详解

使用Python高效读取ZIP压缩文件中的JSON数据

从基础到高级详解Python中文件操作的全攻略实战指南

Python调用大模型API的多种方式与最佳实践

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）