Pandas.DataFrame时间序列数据处理的实现

2023-02-24 09:13 开发作者：饺子大人

如何将一列现有数据指定为DatetimeIndex

将pandas.DataFrame与默认的基于0的索引和一个字符串列作为日期。

import pandas as pd

df = pd.read_csv('./data/26/sample_date.csv')
print(df)
#      date val_1 val_2
# 0  2017-11-01   65   76
# 1  2017-11-07   26   66
# 2  2017-11-18   47   47
# 3  2017-11-27   20   38
# 4  2017-12-05   65   85
# 5  2017-12-12   4   29
# 6  2017-12-22   31   54
# 7  2017-12-29   21   8
# 8  2018-01-03   98   76
# 9  2018-01-08   48   64
# 10 2018-01-19   18   48
# 11 2018-01-23   86   70

print(type(df.index))
# <class 'pandas.core.indexes.range.RangeIndex'>

print(df['date'].dtype)
# object

将to_datetime（）应用于日期字符串列，并转换为datetime64 [ns]类型。

df['date'] = pd.to_datetime(df['date'])
print(df['date'].dtype)
# datetime64[ns]

使用set_index（）方法将datetime64 python[ns]类型的列指定为索引。

Pandas.DataFrame,重置列的行名(set_index）

索引现在是DatetimeIndex。索引的每个元素都是时间戳类型。

df.set_index('date', inplace=True)
print(df)
# IckFtF      val_1 val_2
# date          
# 2017-11-01   65   76
# 2017-11-07   26   66
# 2017-11-18   47   47
# 2017-11-27   20   38
# 2017-12-05   65   85
# 2017-12-12   4   29
# 2017-12-22   31   54
# 2017-12-29   21   8
# 2018-01-03   98   76
# 2018-01-08   48   64
# 2018-01-19   18   48
# 2018-01-23   86   70

print(type(df.index))
# <class 'pandas.core.indexes.datetimes.DatetimeIndex'>

print(df.index[0])
print(type(df.index[0]))
# 2017-11-01 00:00:00
# <class 'pandas._libs.tslib.Timestamp'>

可以按年或月指定行，并按切片提取周期。

print(df['2018'])
#       val_1 val_2
# date          
# 2018-01-03   98   76
# 2018-01-08   48   64
# 2018-01-19   18   48
# 2018-01-23   86   70

print(df['2017-11'])
#       val_1 val_2
# date          
# 2017-11-01   65   76
# 2017-11-07   26   66
# 2017-11-18   47   47
# 2017-11-27   20   38

print(df['2017-12-15':'2018-01-15'])
#       val_1 val_2
# date          
# 2017-12-22   31   54
# 2017-12-29   21   8
# 2018-01-03   98   76
# 2018-01-08   48   64

还可以指定各种格式的行。

print(df.loc['01/19/2018', 'val_1'])
# 18

print(df.loc['20180103', 'val_2'])
# 76

读取CSV时如何指定DatetimeIndex

如果原始数据是CSV文件，则在使用read_csv（）进行读取时可以指定DatetimeIndex。

在参数index_col中指定要用作索引的日期和时间数据的列名（或从0python开始的列号），并将parse_dates设置为True。

df = pd.read_csv('./data/26/sample_date.csv', index_col='date', parse_dates=True)
print(df)
#       val_1 val_2
# date
# 2017-11-01   65   76
# 2017-11-07   26   66
# 2017-11-18   47   47
# 2017-11-27   20   38
# 2017-12-05   65   85
# 2017-12-12   4   29
# 2017-12-22   31   54
# 2017-12-29   21   8
# 2018-01-03   98   76
# 2018-01-08   48   64
# 2018-01-19   18   48
# 2018-01-23   86   70

print(type(df.index))
# <class 'pandas.core.indexes.datetimes.DatetimeIndex'>

如果CSV文件的日期字符串为非标准格式，请在read_csv（）的参数date_parser中指定由lambda表达式定义的解析器。

parser = lambda date: pd.to_datetime(date, format='%Y年%m月%d日')

df_jp =编程 pd.read_csv('./data/26/sample_date_cn.csv', index_col='date', parse_dates=True, date_parser=parser)
print(df_jp)
#       val_1 val_2
# date
# 2017-11-0开发者_Python培训1   65   76
# 2017-11-07   26   66
# 2017-11-18   47   47
# 2017-11-27   20   38
# 2017-12-05   65   85
# 2017-12-12   4   29
# 2017-12-22   31   54
# 2017-12-29   21   8
# 2018-01-03 www.devze.com  98   76
# 2018-01-08   48   64
# 2018-01-19   18   48
# 2018-01-23   86   70

print(type(df_jp.index))
# <class 'pandas.core.indexes.datetimes.DatetimeIndex'>

关于pandas.Series

这可能不是实际的模式，但是如果pandas.Series索引是日期字符串。

s = pd.read_csv('./data/26/sample_date.csv', index_col=0, usecols=[0, 1], squeeze=True)
print(s)
# date
# 2017-11-01  65
# 2017-11-07  26
# 2017-11-18  47
# 2017-11-27  20
# 2017-12-05  65
# 2017-12-12   4
# 2017-12-22  31
# 2017-12-29  21
# 2018-01-03  98
# 2018-01-08  48
# 2018-01-19  18
# 2018-01-23  86
# Name: val_1, dtype: int64

print(type(s))
print(type(s.index))
# <class 'pandas.core.series.Series'>
# <class 'pandas.core.indexes.base.Index'>

如果要将此索引转换为DatetimeIndex，则可以通过将用to_datetime转换的索引替换为属性索引来覆盖它。

s.index = pd.to_datetime(s.index)
print(s)
# date
# 2017-11-01  65
# 2017-11-07  26
# 2017-11-18  47
# 2017-11-27  20
# 2017-12-05  65
# 2017-12-12   4
# 2017-12-22  31
# 2017-12-29  21
# 2018-01-03  98
# 2018-01-08  48
# 2018-01-19  18
# 2018-01-23  86
# Name: val_1, dtype: int64

print(type(s))
print(type(s.index))
# <class 'pandas.core.series.Series'>
# <class 'pandas.core.indexes.datetimes.DatetimeIndex'>

print(s['2017-12-15':'2018-01-15'])
# date
# 2017-12-22  31
# 2017-12-29  21
# 2018-01-03  98
# 2018-01-08  48
# Name: val_1, dtype: int64

到此这篇关于Pandas.DataFrame时间序列数据处理的实现的文章就介绍到这了,更多相关Pandas.DataFrame时间序列内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

继续阅读：Pandas.DataFrame时间序列

Pandas.DataFrame时间序列数据处理的实现

目录

如何将一列现有数据指定为DatetimeIndex

读取CSV时如何指定DatetimeIndex

关于pandas.Series

更多精彩内容

精彩评论

最新开发

Go中make函数和append函数的作用详解

使用C++设计开发一个功能完善的多进程管理器

C/C++ Qt监控文件状态变化方式

深入理解 C++ 的 std::initializer_list及使用场景分析

C语言memcpy函数用法详解:高效内存复制的实用工具

开发排行榜

springboot后端存储富文本内容的思路与步骤(含图片内容)

PyCharm运行python测试,报错“没有发现测试”/“空套件”的解决

return base64.b64encode(b).decode(

基于C语言实现钻石棋游戏的示例代码

Sublime Text 3解决中文乱码问题（实测可用）