python dataprep库简化加速数据科学操作

2024-01-31 09:24 开发作者：程序员小寒

python http://www.devze.com;dataprep数据科学库

今天给大家分享一个超酷的 python 库，dataprep。

https://github.com/sfu-db/dataprept

Dataprep 是一个开源的 Python 库，它的主要目标是简化和加快数据科学操作，特别关注简化探索性数据分析（EmThpCKDA）阶段。

通过利用 DataPrep 的强大功能，数据科学家可以显着减少执行 EDA 任务所花费的时间。

该库包含三个主要的API供我们使用，它们是：

从常见数据源收集数据（dataprep.connector ）
进行探索性数据分析（dataprep.eda）
清理和标准化数据（dataprep.clean）

DataPrep 包旨在实现快速数据探索，并与 Pandas 的 DataFrame 对象良好配合。

库的安装

我们将首先使用 pip 安装 Dataprep 库。下面给出的命令将执行此操作。

pip install -U dataprep

数据准备

DataPrep 使我们能够使用一行代码创建交互式配置文件报http://www.devze.com告。

该报告对象是一个与我们的 Notebook 分离的 html 对象，具有多种探索选择。

让我们使用示例数据尝试该 API。

from dataprep.datasets import load_dataset
from dataprep.eda import create_report
df = load_dataset("titanic")
df.head()

python dataprep库简化加速数据科学操作

我们将使用python泰坦尼克号样本数据集作为我们的数据。

加载数据后，我们将使用 create_report 函数来生成交互式报告。

create_report(df).show_browser()

python dataprep库简化加速数据科学操作

正如我们在上面的 GIF 中看到的，API 创建了一个很好的交互式报告供我们探索。

让我们尝试一一剖析这些信息。

概述选项卡

从概述选项卡中，我们可以看到数据集中的所有概述信息。

我们可以获得的信息包括缺失数据数量和百分比、重复数据、变量数据类型以及每个变量的详细信息。

python dataprep库简化加速数据科学操作

变量选项卡

变量选项卡为我们提供了数据集中每个变量的详细信息。

几乎你需要的所有信息都可用，例如，分位数和描述性统计、分布和正态性。

python dataprep库简化加速数据科学操作

交互选项卡

交互选项卡将从两个数值变量创建散点图。

我们可以自己设置 X 轴和 Y 轴，这使我们能够控制如何可视化它。

python dataprep库简化加速数据科学操作

缺失值选项卡

缺失值选项卡为我们提供了有关选项卡中缺失值的所有详细信息。

我们可以选择条形图、频谱、热图和树状图来充分探索缺失值信息。

python dataprep库简化加速数据科学操作

数据清理

DataPrep Cleaning API 集合提供了 140 多个 API 来清理和验证我们的 DataFrame。

让我们通过泰坦尼克号数据集示例尝试列标题清理功能。

from dataprep.clean import clean_headers
clean_headers(df, case = 'const').head()

使用 “ Const ” 大小写，我们最终会得到所有大写的列名称。

python dataprep库简化加速数据科学操作

如果你想要一个完整干净的 DataFrame，我们可以使用 DataPrep 中的 clean_df API 。

该 API 将有两个输出—推断的数据类型和清理后的 DataFrame。

from dataprep.clean import clean_df
inferred_dtypes, cleaned_df = clean_df(df)

以上就是python dataprep库简化加速数据科学操作的详细内容，更多关于python dataprep数据科学库的资料请关注编程客栈(www.devze.com)其它相关文章！

继续阅读：python dataprep python dataprep数据科学库

python dataprep库简化加速数据科学操作

目录

python http://www.devze.com;dataprep数据科学库

库的安装

数据准备

概述选项卡

变量选项卡

交互选项卡

相关性选项卡

缺失值选项卡

数据清理

更多精彩内容

精彩评论

最新开发

Go语言中uintptr和unsafe.Pointer的区别的实现小结

Go语言中栈扩容和栈缩容的使用

Go 语言中的命令行参数操作详解

浅谈Go 语言中逃逸分析是怎么进行的

Go语言错误和异常实现

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）