Pandas分组聚合之使用自定义函数方法transform()、apply()
目录
- 创建一个dataframe结构
- transform方法
- apply方法
- 补充
- str
- 总结
创建一个dataframe结构
import pandas as pd df = pd.DataFrame( data={ 'name': ['z_s', 'l_s', 'w_w', 'z_l', 'y_s', 'j_j', 'l_b', 'z_f', 'hs_q', 'lbl_k', 'qy_n', 'mg_n'], 'score': [100, 97, 98, 89, 67, 59, 29, 87, 78, 89, 88, 80], 'group': [1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2], 'cls': ['A', 'A', 'A', 'B', 'B', 'B', 'A', 'A', 'A', 'B', 'B', 'B'], 'height编程客栈': [178.0, 180.0, 176.0, 182.0, 189.0, 190.0, 172.5, 175.0, 165.0, 160.0, 158.5, 159.0] }, index=['stu_' + str(i) for i in np.arange(1, 13, 1)] ) print('df:\n', df) def func_add_one(x): return x + 1
transform方法
# 调用自定义函数 ret = df.loc[:, 'score'].transform(func_add_one) print('r编程et1:\n',ret) # 调用numpy指标 求均值 ret = df.groupby(by=['cls'])['score'].transform(np.mean) print('ret2:\n'开发者_JAVA学习, ret) # 求 多列的均值 ret = df.groupby(by=['cls'])[['score','height']].transform(np.mean) print('ret3:\n', ret)
由结果可以发现,transform调用统计指标会将统计结果交给第一项,这样可以保证统计结果的行数与原数组相同,使得之后方便将其拼接到原数组中。
如果想将结果进行聚合,可以调用apply方法:
apply方法
# 调用自定义函数 ret = df.loc[:, 'score'].apply(func_add_one) print('ret1:\n',编程客栈ret) # 调用numpy指标 ret = df.groupby(by=['cls'])[['score','height']].apply(np.mean) print('ret2:\n', ret)
补充
transporm
方法是将DataFrame
或Series
中的值同时放入指定的函数中执行,再将结果返回。
获取 name的第0个元素
def func_get_firstnameword(x): return x[0] ret = df['name'].transform(func_get_firstnameword) print('ret:\n', ret)
自定义方法拥有很大的可操作性,通过自定义方法可以对数据进行一系列操作,最终得到想要的结果。
str
除此之外,还可以使用str方法,这是一种类似于 dt 的方法(dt的使用)
ret = df['name'].str.split('_', expand=True)[0] print('ret:\n', ret)
str 的作www.devze.com用是bkkzg将整个 Series
当作str对象,对Series
中的所有元素同时执行.split('_', expand=True)[0]
方法,其中expand=True
的作用是指定split()
方法是对整个Series
进行操作的,而不是只对第一个元素进行操作:
ret = df['name'].str.split('_')[0] print('ret:\n', ret)
总结
到此这篇关于Pandas分组聚合之使用自定义函数方法transform()、apply()的文章就介绍到这了,更多相关Pandas使用自定义函数方法内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
精彩评论