Python中DataFrame与内置数据结构相互转换的实现
目录
- 楔子
- DataFrame 转成内置数据结构
- 内置数据结构转成 DataFrame
楔子
pandas 支持我们从 Excel、CSV、数据库等不同数据源当中读取数据,来构建 DataFrame。但有时数据并不来自这些外部数据源,而是来自一个已经存在的 python 数据结构,比如列表、字典等等。
同理当需要导出 DataFrame 时,也不一定非要写到外部文件里,而是希望生成字典或者列表,那么这个时候该怎么做呢?
所以这就涉及到了 DataFrame 和 Python 内置数据结构之间的相互转换,下面来介绍一些最佳实践,你可以根据实际情况进行选择。
DataFrame 转成内置数据结构
假设有这样一个 DataFrame:
importpandasASPd df=pd.DataFrame({"name":["Satori","Koishi","Marisa"], "score":[99,98,100], "rank":[2,3,1]}) print(df) """ namescorerank 0Satori992 1Koishi983 2Marisa1001 """
那么看看 DataFrame 都提供了哪些方法,以及在转成内置数据结构之后是什么样子?开发者_JS培训
df.to_records()
将 DataFrame 转成 Numpy 的数组,数组里面是一个个的元组。
print(df.to_records()) """ [(0,'Satori',99,2)(1,'Koishi',98,3)(2,'Marisa',100,1)] """ #返回的时候将索引也带上了,我们可以去掉 print(df.to_records(index=False)) """ [('Satori',99,2)('Koishi',98,3)('Marisa',100,1)] """ #df.to_records返回的是numpy的数组,可以再转成列表 print(df.to_records(index=False).tolist()) """ [('Satori',99,2),('Koishi',98,3),('Marisa',100,1)] """
这种数据结构还是很常见的,在工作中经常会用到。但唯一不好的是,字段信息丢失了。
df.to_dict()
将 DataFrame 转成 Python 的字典。
#返回Python的字典,key是字段名,value是对应的每一列 print(df.to_dict()) """ {'name':{0:'Satori',1:'Koishi',2:'Marisa'}, 'rank':{0:2,1:3,2:1}, 'score':{0:99,1:98,2:100}} """ #但这里的value有一些问题,就是它把索引也包含在里面了 #我们可以去掉它 print( {k:tuple(v.values())fork,vindf.to_dict().items()} ) """ {'nameandroid':('Satori',编程客栈'Koishi','Marisa'), 'rank':(2,3,1), 'score':(99,98,100)} """ #当然啦,to_dict()还可以手动实现 print( {col:tuple(df[col])forcolindf.columns} ) """ {'name':('Satori','Koishi','Marisa'), 'rank':(2,3,1), 'score':(99,98,100)} """
这种格式的数据用的就不多了,用得更多的是下一种。
df.to_dict(orient="records")
将 DataFrame 转成 Python 的列表,列表里面是一个个的字典,每个字典代表数据的每一行。
print(df.to_dict(orient="records")) """ [{'name':'Satori','rank':2,'score':99}, {'name':'Koishi','rank':3,'score':98}, {'name':'Marisa','rank':1,'score':100}] """
个人觉得这种数据结构应该用得最多。
DataFrame 生成的数据还有其它格式,这里就不赘述了,常用的就是上面几种。
内置数据结构转成 DataFrame
内置数据结构转成 DataFrame,我们也来介绍几个最常用的场景。
importpandasaspd data=[{'name':'Satori','rank':2,'score':99}, {'name':'Koishi','rank':3,'score':98}, {'name':'Marisa','rank':1,'score':100}] #对于这种数据,可以通过DataFrame的frojsm_records方法 #列表里的字典代表了DataFrame的每一行,每个字典都具有相同的key #而这些key则表示DataFrame的列 print(pd.DataFrame.www.devze.comfrom_records(data)) """ namerankscore 0Satori299 1Koishi398 2Marisa1100 """ #或者更简单的,直接调用pd.DataFrame即可 print(pd.DataFrame(data)) """ namerankscore 0Satori299 1Koishi398 2Marisa1100 """ #如果列表里面的字典,不具备相同的 key,会怎么样呢? data[2]["length"]=155 print(pd.DataFrame(data)) """ namerankscorelength 0Satori299NaN 1Koishi398NaN 2Marisa1100155.0 """ #很简单,会将所有的key都考虑在内 #如果某一行没有指定的key,那么对应的值就是空
当然数据也可能是这种格式:
importpandasaspd data={'2020-01-01':{'name':'Satori','rank':2,'score':99}, '2020-01-02':{'name':'Koishi','rank':3,'score':98}, '2020-01-03':{'name':'Marisa','rank':1,'score':100}} print(pd.DataFrame.from_dict(data,orient="index")) """ namerankscore 2020-01-01Satori299 202编程客栈0-01-02Koishi398 2020-01-03Marisa1100 """
最后一种:
importpandasaspd data={'name':['Satori','Koishi','Marisa'], 'rank':[2,3,1], 'score':[99,98,100]} #直接调用DataFrame即可 print(pd.DataFrame(data)) """ namerankscore 0Satori299 1Koishi398 2Marisa1100 """
上面就是本文的内容,比较简单。并且相关函数的具体用法,也没有详细说明,只是从工作角度介绍了一些最佳实践。更多内容,可以查看 pandas 的注释。
到此这篇关于Python中DataFrame与内置数据结构相互转换的实现的文章就介绍到这了,更多相关Python DataFrame内置数据结构内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
精彩评论