开发者

Python实现画箱线图展示数据分布情况

目录
  • python画箱线图展示数据分布情况
    • 构成要素
    • 使用场景
    • 自定义箱线图
  • 总结

    Python画箱线图展示数据分布情况

    箱线图(Boxplot)是一种常用的统计图表,用于展示数据的分布情况。

    它由五个统计量组成:

    最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)和最大值。

    通过这些统计量,可以直观地了解数据的集中趋势、离散程度以及是否存在异常值。

    构成要素

    1.中位数(Q2)

    • 箱线图中的中间线代表数据的中位数,即将数据按大小排列后中间位置的数值。

    2.四分位数(Q1和Q3)

    • 箱体的上边界(Q3)和下边界(Q1)分别表示数据的第三四分位数和第一四分位数。
    • 箱子的高度即为四分位距(IQR),是Q3和Q1的差值,用来衡量数据的离散程度。

    3.盒须

    • 箱体外部的直线(盒须)延伸至数据集的最大值和最小值,用来显示非异常值的范围。
    • 盒须外部的点表示可能的异常值,即相对于主体数据分布偏离较大的数据点。

    4.异常值

    • 在盒须外部的点表示可能存在的异常值,即与其他数据点相比显著偏离的数据。

    使用场景

    箱线图常用于以下情况:

    • 数据分布比较:可以同时比较多组数据的分布情况,帮助观察各组数据的中位数、四分位数和离散程度。
    • 异常值检测:通过观察箱体外部的点,可以快速发现可能的异常值或离群点。
    • 数据分散度分析:箱体的长度和位置反映了数据的分散程度,有助于对数据的离散程度进行比较。
            # 创建示例数据
            data = {
                'Group': ['A'] * 11 + ['B'] * 10 + ['C'] * 10,
                'Value': [23, 25, 19, 21, 24, 27, 22, 20, 21, 24, -1, # Group A
                          30, 28, 36, 31, python34, 29, 35, 33, 32, 30,  # Group B
                          15, 17, 14, 16, 13, 18, 14, 15, 17, 16]  # Group C
            }
    
            # 转换为 DataFrame
            df = pd.DataFrame(data)
    
            # 设置绘图风格
            sns.set(style="whitegrid")
    
            # 绘制箱线图
            plt.figure(figsize=(10, 6))
            sns.boxplot(x='Group', y='Value', dapythonta=df)
    
            # 添加标题和标签
            plt.title('Box http://www.devze.comPlot of Three Groups')
            plt.xlabel('Group')
            plt.ylabel('Value')
    
            # 显示图表
            # plt.show()
            plt.savefig('./boxPlot_seaborn.png')

    Python实现画箱线图展示数据分布情况

    • 中位数(箱体内部的横线):每个组的数据中间值。
    • 四分位数(箱体js的上下边缘):分别表示25%和75%的数据点。
    • 最小值和最大值(盒须的末端):除去异常值后数据的范围。
    • 异常值(箱体外的点):与其他数据点相距较远的数值。

    自定义箱线图

            print('自定义箱线图')
            # 示例数据
            data = [
                {'Min': 10, '50%': 50, 'Mean': 55, '95%': 90, '99%': 97, 'Max': 100},
                {'Min': 20, '50%': 60, 'Mean': 65, '95%': 85, '99%': 92, 'Max': 95},
                {'Min': 5, '50%': 40, 'Mean': 45, '95%': 80, '99%': 88, 'Max': 90}
            ]
    
            # 准备箱线图数据
            box_data = []
            means = []
            positions = []
    
            for i, d in enumerate(data):
                box_data.append([d['Min'], d['50%'], d['95%'], d['99%'], d['Max']])
                means.append(d['Mean'])
                positions.append(i + 1)
    
            # 创建图形
            fig, ax = plt.subplots()
    
            # 绘制箱线图主体
            ax.boxplot(box_data, vert=False, positions=positions, patch_artist=True, showmeans=False,
                       meanline=True, widths=0.6)
    
            # 添加均值点
            for i, mean in enumerate(means):
                ax.plot(mean, positions[i], 'ro')
    
            # 设置轴标签
            ax.set_yticks(np.arange(1, len(data) + 1))
            ax.set_yticklabels([f'Data {i + 1}' for i in range(len(data))])
    
            # 添加标题和标签
            plt.title('Custom Box Plot with Multiple Data Sets')
            plt.xlabel('Value')
    
            # 显示图形
            plt.show()
            plt.savefig('./boxPlot_auto.png')

    Python实现画箱线图展示数据分布情况

            print('自定义箱线图')
            plt.clf()  # 清除当前图形内容
            # 数据
            # Min、50%、Mean、95%、99%、Max
            data = [
                {'data1':[10,50,44,90,97,100]},
                {'data2':[20,60,65,85,92,95]},
                {'data3':[5,40,45,80,88,90]}
            ]
    
            # 准备箱线图数据
            box_data = [d[list(d.keys())[0]] for d in data]  # 提取数据
            labels = [list(d.keys())[0] for d in data]
            means = [d[list(d.keys())[0]][2] for d in data]
    
    
            # 创建图形
            fig, ax = plt.subplots()
    
            # 绘制箱线图主体
            bp = ax.boxplot(box_data, vert=False,  patch_artist=True, showmeans=True,meanline=True)
    
            # 添加均值点
            for i, mean in enumerate(means):
                ax.plot(mean, i+1, 'ro')
    
            # 设置轴标签
            ax.set_yticklabels(labels)
    
            # 添加标题和标签
            plt.title('Custom Box Plot with Multiple Data Sets')
            plt.xlabel('Value')
    
            # 显示图形
            # plt.show()
            plt.savphpefig('./boxPlot_auto.png')
    • box_data提供了要绘制的数据。
    • vert=False表示绘制水平的箱线图。
    • patch_artist=True使得箱线图的箱体部分被填充颜色。
    • showmeans=True在箱线图中显示均值。
    • meanline=True用线条表示均值。

    Python实现画箱线图展示数据分布情况

    总结

    以上为个人经验,希望能给大家一个参考,也希望大家多多支持编程客栈(www.devze.com)。

    0

    上一篇:

    下一篇:

    精彩评论

    暂无评论...
    验证码 换一张
    取 消

    最新开发

    开发排行榜