pandas探索你的数据实现可视化示例详解

2023-11-19 12:10 开发作者：海狸大大

步骤1 导入必要的库
步骤2 从以下地址导入数据
步骤3 将数据框命名为titanic
步骤4 将PassengerId设置为索引
步骤5 绘制一个展示男女乘客比例的扇形图
步骤6 绘制一个展示船票Fare, 与乘客年龄和性别的散点图
步骤7 有多少人生还？
步骤8 绘制一个展示船票价格的直方图

总结

1、Seaborn简介和基本绘图函数
2、前文中所用的Seaborn
3、Seaborn的样式控制

探索泰坦尼克灾难数据

在数据分析的旅程中，可视化数据是一个不可或缺的步骤，它可以帮助我们更好地理解数据、发现趋势和关联。在本篇博客中，我们将使用 python 中的 pandas、matplotlib 和 seaborn 库，来探索泰坦尼克灾难的数据集，以图表形式呈现数据的各种方面。

步骤1 导入必要的库

首先，我们导入了一些必要的库，包括 pandas 用于数据操作，matplotlib 和 seaborn 用于数据可视化，以及 numpy 用于数值计算。这些库将在整个分析过程中发挥关键作用。

# 运行以下代码
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
%matplotlib inline

步骤2 从以下地址导入数据

在这一步，我们准备导入泰坦尼克灾难的数据，这些数据存储在名为 "train.csv" 的文件中。数据导入是数据分析的第一步，让我们能够开始探索和分析数据。

# 运行以下代码
path7 = 'exercise_data/train.csv'  # train.csv

步骤3 将数据框命名为titanic

我们成功导入数据后，将数据框命名为 "titanic" 并显示前几行数据，以便查看数据的结构和内容。

# 运行以下代码
titanic = pd.read_csv(path7)
titanic.head()

pandas探索你的数据实现可视化示例详解

步骤4 将PassengerId设置为索引

在这一步，我们将 "PassengerId" 列设置为数据的索引。这可以帮助我们更容易地访问和操作数据。

# 运行以下代码
titanic.set_index('PassengerId').head()

pandas探索你的数据实现可视化示例详解

步骤5 绘制一个展示男女乘客比例的扇形图

通过创建扇形图，我们展示了乘客中男性和女性的比例。这是一个简单而有效的方式来可视化性别分布，并了解男女乘客的比例。

# 运行以下代码
# sum the instances of males and females
males = (titanic['Sex'] == 'male').sum()
females = (titanic['Sex'] == 'female')android.sum()
# put them into a list called proportions
proportions = [males, females]
# Create a pie chart
plt.pie(
    # using proportions
    proportions,
    # with the labels being officer names
    labels = ['Males', 'Females'],
    # with no shadows
    shadow = False,
    # with colors
    colors = ['blue','red'],
    # with one slide exploded out
    explode = (0.15 , 0),
    # with the start angle at 90%
    startangle = 90,
    # with the percent listed as a fraction
    autopct = '%1.1f%%'
    )
# View the plot drop above
plt.axis('equal')
# Set labels
plt.title("Sex Proportion")
# View the plot
plt.tight_layout()
plt.show()

pandas探索你的数据实现可视化示例详解

步骤6 绘制一个展示船票Fare, 与乘客年龄和性别的散点图

在这一步，我们创建了一个散点图，将船票价格 (Fare) 与乘客的年龄和性别进行了比较。这种图表可以帮助我们观察票价与年龄和性别之间的关系。

# 运行以下代码
# crpythoneates the plot using
lm = sns.lmplot(x = 'Age', y = 'Fare', data = titanic, hue = 'Sex', fit_reg=False)
# set title
lm.set(title = 'Fare x Age')
# get the axes object and tweak it
axes = lm.axes
axes[0,0].set_ylim(-5,)
axes[0,0].set_xlim(-5,85)

(-5.0, 85.0)

pandas探索你的数据实现可视化示例详解

步骤7 有多少人生还？

我们统计了生还乘客的数量，这是泰坦尼克灾难中一个重要的统计指标。在这个数据集中，有342人幸存下来。

# 运行以下代码
titanic.Survived.sum()

342

步骤8 绘制一个展示船票价格的直方图

最后，我们创建了一个直方图，显示了不同船票价格的频率分布。这种图表可以帮助我们了解船票价格的分布情况。

# 运行以下代码
# sort the values from the top to the least value and slice the first 5 items
df = titanic.Fare.sort_values(ascending = Falsphpe)
df
# crhttp://www.devze.comeate bins interval using numpy
binsVal = np.arange(0,600,10)
binsVal
# create the plot
plt.hist(df, bins = binsVal)
# Set the title and labels
plt.xlabel('Fare')
plt.ylabel('Frequency')
plt.title('Fare Payed Histrogram')
# show the plot
plt.show()

pandas探索你的数据实现可视化示例详解

总结

我们介绍了数据可视化的基本步骤，并使用了 matplotlib 和 seaborn 库来创建不同类型的图表。具体来说，我们使用了扇形图展示比例、散点图展示关系、直方图展示分布情况等。这些图表有助于我们更好地理解泰坦尼克灾难数据，探索性别比例、票价分布以及生还人数等方面的信息。

1、Seaborn简介和基本绘图函数

Seaborn 是一个用于数据可视化的 Python 库，它建立在 Matplotlib 的基础之上，提供了更高级、更美观和更方便的绘图功能。以下是 Seaborn 中常用的一些创建图表的函数：

sns.scatterplot(): 用于创建散点图，展示两个变量之间的关系。
sns.lineplot(): 绘制线图，通常用于显示时间序列数据的趋势。
sns.barplot(): 创建条形图，用于比较不同类别之间的数值关系。
sns.countplot(): 绘制计数图，用于显示每个类别的频数或计数。
sns.boxplot(): 绘制箱线图，展示数据的分布和异常值。
sns.violinplot(): 创建小提琴图，结合了箱线图和核密度估计，用于展示数据分布。
sns.heatmap(): 生成热力图，通常用于显示相关性矩阵或二维数据的值分布。
sns.pairplot(): 创建成对关系图，展示数据集中多个变量之间的散点图和直方图。
sns.distplot(): 绘制单变量的分布图，包括直方图和核密度估计。
sns.jointplot(): 创建联合图，同时显示两个变量的单变量分布和二维关系。
sns.lmplot(): 绘制线性回归模型的散点图和回归线。
sns.catplot(): 用于创建分类图，可以包括多个子图，通常用于比较不同组或类别之间的关系。
sns.relplot(): 绘制关系图，用于可视化两个或多个变量之间的关系。

2、前文中所用的Seaborn

以前文所使用的lmplot为例：sns.lmplot() 是 Seaborn 库中用于创建线性回归模型图的函数。它通常用于可视化两个变量之间的线性关系，同时可以添加回归线和置信区间。

sns.lmplot(x, y, data, hue=None, col=None, row=None, palette=None, height=5, ASPect=1, markers='o', scatter_kws=None, line_kws=None)

参数说明：

x 和 y：分别是数据框中的列名，用于表示 x 轴和 y 轴上的变量。
data：要使用的数据框，包含 x 和 y 列。
hue：可选参数，用于根据某一列的不同取值给数据点着色，通常用于表示分类变量。
col 和 row：可选参数，用于在多个子图中绘制不同的图表，通常用于表示分类变量。
palette：可选参数，用于指定颜色调色板，用于着色数据点或线条。
height：图的高度。
aspect：图的纵横比。
markers：可选参数，用于指定数据点的标记样式。
scatter_kws 和 line_kws：可选参数，用于传递给散点图和回归线的其他参数。

sns.lmplot() 函数的作用是绘制散点图，并根据数据拟合一个线性回归模型。它通常用于研究两个连续变量之间的关系，以及回归模型的拟合情况。

import seaborn as sns
import matplotlib.pyplot as plt
# 创建一个示例数据框
data = sns.load_dataset("tips")
# 使用lmplot绘制散点图和回归线
sns.lmplot(x="total_bill", y="tip", data=data)
# 添加回归线的置信区间
sns.lmplot(x="total_bill", y="tip", data=data, ci=None)
# 使用hue参数根据分类变量着色
sns.lmplot(x="total_bill", y="tip", data=data, hue="sex")
# 使用col和row参数创建多个子图
sns.lmplot(x="total_bill", y="tip", data=data, col="time", row="sex")
# 自定义标记样式和颜色
sns.lmplot(x="total_bill", y="tip", data=data, markers=["o", "x"], palette="Set1")
plt.show()

3、Seaborn的样式控制

Seaborn 允许你控制图形的样式和外观，以使你的数据可视化更加美观和易于理解。你可以使用 Seaborn 提供的各种样式设置和主题来自定义图形的外观。

样式设置（Style Set）： Seaborn 提供了不同的样式设置，通过 sns.set_style() 函数可以进行切换。常用的样式设置包括 "whitegrid"、"darkgrid"、"white"、"dark" 和 "ticks"。每种样式设置具有不同的背景和网格线样式，你可以根据需要选择合适的样式。

import seaborn as sns
# 使用不同的样式设置
sns.set_style("whitegrid")
sns.set_style("darkgrid")
sns.set_style("white")
sns.set_style("dark")
sns.set_style("ticks")

图形主题（Themes）： 通过 sns.set_theme()&nandroidbsp;函数，你可以选择不同的图形主题，包括 "darkgrid"、"whitegrid"、"dark"、"white" 和 "ticks"，这与样式设置类似。不同的主题将影响整个图形的外观。

import seaborn as sns
# 使用不同的图形主题
sns.set_theme(style="darkgrid")
sns.set_theme(style="whitegrid")
sns.set_theme(style="dark")
sns.set_theme(style="white")
sns.set_theme(style="ticks")

颜色调色板（Color Palettes）： Seaborn 提供了各种颜色调色板，用于指定图形中的颜色。你可以使用 sns.color_palette() 函数来自定义颜色调色板，也可以使用已经定义好的颜色调色板，如 "deep"、"pastel"、"dark" 等。

import seaborn as sns
# 使用不同的颜色调色板
sns.color_palette("deep")
sns.color_palette("pastel")
sns.color_palette("dark")

坐标轴刻度（Axis Ticks）： 你可以通过 sns.set_context() 函数来控制坐标轴刻度的大小和字体。可选的上下文包括 "paper"、"notebook"、"talk" 和 "poster"。

import seaborn as sns
# 设置坐标轴刻度的上下文
sns.set_context("paper")
sns.set_context("notebook")
sns.set_context("talk")
sns.set_context("poster")

这些控制样式的方法可以根据你的需求来自定义 Seaborn 图形的外观，使其更符合你的数据可视化目标和审美标准。你可以根据具体情况组合使用这些设置来创建最适合你的图形样式。

以上就是pandas探索你的数据实现可视化示例详解的详细内容，更多关于pandas数据可视化的资料请关注编程客栈(www.devze.com)其它相关文章！

继续阅读：pandas数据可视化 pandas数据探索

pandas探索你的数据实现可视化示例详解

目录

探索泰坦尼克灾难数据

步骤1 导入必要的库

步骤2 从以下地址导入数据

步骤3 将数据框命名为titanic

步骤4 将PassengerId设置为索引

步骤5 绘制一个展示男女乘客比例的扇形图

步骤6 绘制一个展示船票Fare, 与乘客年龄和性别的散点图

步骤7 有多少人生还？

步骤8 绘制一个展示船票价格的直方图

总结

1、Seaborn简介和基本绘图函数

2、前文中所用的Seaborn

3、Seaborn的样式控制

更多精彩内容

精彩评论

最新开发

Go语言中:= 运算符短变量声明的使用小结

go无缓冲通道的实现及应用

golang循环变量捕获问题的解决

Go语言创建结构体实例对象的几种常用方式

C++二叉搜索树图片及代码详解

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）

目录

探索泰坦尼克灾难数据

步骤1 导入必要的库

步骤2 从以下地址导入数据

步骤3 将数据框命名为titanic

步骤4 将PassengerId设置为索引

步骤5 绘制一个展示男女乘客比例的扇形图

步骤6 绘制一个展示船票Fare, 与乘客年龄和性别的散点图

步骤7 有多少人生还？

步骤8 绘制一个展示船票价格的直方图

总结

1、Seaborn简介和基本绘图函数

2、前文中所用的Seaborn

3、Seaborn的样式控制

更多精彩内容

精彩评论

最新开发

Go语言中:= 运算符短变量声明的使用小结

go无缓冲通道的实现及应用

golang循环变量捕获问题​​的解决

Go语言创建结构体实例对象的几种常用方式

C++二叉搜索树图片及代码详解

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）

golang循环变量捕获问题的解决