当前位置：首页 > 科技 > 软件

Python数据分析必备：Pandas中Rolling方法的完全指南

来源：责编：时间：2024-04-09 09:03:52 334观看

导读在数据分析和时间序列数据处理中，经常需要执行滚动计算或滑动窗口操作。Pandas库提供了rolling方法，用于执行这些操作。本文将详细介绍Pandas中的rolling方法，包括其概念、用法和示例代码。1. 引言滚动计算与滑动窗口操

在数据分析和时间序列数据处理中，经常需要执行滚动计算或滑动窗口操作。Pandas库提供了rolling方法，用于执行这些操作。

本文将详细介绍Pandas中的rolling方法，包括其概念、用法和示例代码。

1. 引言

滚动计算与滑动窗口操作

滚动计算（Rolling Calculation）是一种数据处理技术，它在时间序列数据或数据框中执行基于滑动窗口的计算。这种技术通常用于计算移动平均、滚动标准差、滚动相关系数等统计指标。Pandas中的rolling方法提供了一种简单且高效的方式来执行这些计算。

2. Pandas的rolling方法

创建rolling对象

在Pandas中，要使用rolling方法，首先需要创建一个rolling对象。rolling对象可以应用于数据框的列，它表示一个窗口，用于滚动计算。

创建rolling对象的基本语法如下：

rolling_obj = df['column_name'].rolling(window=window_size)

其中：

df['column_name'] 是数据框列的选择，表示我们要在哪个列上执行滚动计算。
window_size 是窗口的大小，用于定义滚动窗口的大小。

常用参数

rolling方法还支持其他参数，包括：

min_periods：指定每个窗口最小的非NaN值数量，用于处理边界效应。
center：指示计算值的位置是窗口的中心还是右边缘。
win_type：用于指定窗口类型，如矩形窗口或指数加权窗口。

3. 滚动计算示例

移动平均值

移动平均是滚动计算的常见应用之一。通过rolling方法，可以轻松计算时间序列数据的移动平均值。

以下是一个示例：

import pandas as pd# 创建示例数据框data = {'value': [1, 2, 3, 4, 5]}df = pd.DataFrame(data)# 创建rolling对象并计算移动平均rolling_mean = df['value'].rolling(window=3).mean()print(rolling_mean)

滚动标准差

滚动标准差用于测量数据的波动性。通过rolling方法，可以计算滚动窗口内的标准差。

以下是一个示例：

import pandas as pd# 创建示例数据框data = {'value': [1, 2, 3, 4, 5]}df = pd.DataFrame(data)# 创建rolling对象并计算滚动标准差rolling_std = df['value'].rolling(window=3).std()print(rolling_std)

滚动相关系数

滚动相关系数用于衡量两个变量之间的关联程度。通过rolling方法，可以计算滚动窗口内的相关系数。

以下是一个示例：

import pandas as pd# 创建示例数据框data = {'x': [1, 2, 3, 4, 5], 'y': [5, 4, 3, 2, 1]}df = pd.DataFrame(data)# 创建rolling对象并计算滚动相关系数rolling_corr = df['x'].rolling(window=3).corr(df['y'])print(rolling_corr)

4. 自定义滚动函数

apply方法

除了内置的滚动函数，还可以使用apply方法来应用自定义函数进行滚动计算。能够执行任何你需要的操作。

以下是一个示例：

import pandas as pd# 创建示例数据框data = {'value': [1, 2, 3, 4, 5]}df = pd.DataFrame(data)# 创建rolling对象并应用自定义函数def custom_function(data):    return data.max() - data.min()result = df['value'].rolling(window=3).apply(custom_function)print(result)

自定义函数示例

自定义函数可以根据具体需求执行各种滚动计算。下面是两个示例函数，分别用于计算滚动差值和百分比变化。

计算滚动差值

以下自定义函数计算滚动差值，即当前数据点与前一个数据点之间的差值：

import pandas as pd# 创建示例数据框data = {'value': [1, 3, 6, 10, 15]}df = pd.DataFrame(data)# 创建rolling对象并应用自定义函数def calculate_rolling_difference(data):    return data.diff()rolling_diff = df['value'].rolling(window=2).apply(calculate_rolling_difference)print(rolling_diff)

在这个示例中，使用diff方法来计算差值，然后将其应用到rolling对象上。

计算滚动百分比变化

以下自定义函数计算滚动百分比变化，即当前数据点与前一个数据点之间的百分比变化：

import pandas as pd# 创建示例数据框data = {'value': [100, 120, 90, 110, 130]}df = pd.DataFrame(data)# 创建rolling对象并应用自定义函数def calculate_rolling_percentage_change(data):    previous_value = data.iloc[0]  # 获取前一个数据点的值    return ((data - previous_value) / previous_value) * 100rolling_percentage_change = df['value'].rolling(window=2).apply(calculate_rolling_percentage_change)print(rolling_percentage_change)

在这个示例中，获取前一个数据点的值，然后计算当前数据点与前一个数据点之间的百分比变化。

5. 窗口类型

固定窗口

在前面的示例中，使用的是固定窗口，窗口大小在整个计算过程中保持不变。

指数加权窗口

除了固定窗口外，Pandas还支持指数加权窗口。指数加权窗口将不同时间点的数据分配不同的权重，用于更敏感的滚动计算。

import pandas as pd# 创建示例数据框data = {'value': [1, 2, 3, 4, 5]}df = pd.DataFrame(data)# 创建指数加权rolling对象并计算rolling_ewm = df['value'].ewm(span=3).mean()print(rolling_ewm)

自定义窗口

如果需要自定义窗口，可以使用rolling方法的window参数。

以下是一个示例，展示如何使用rolling方法的window参数来创建自定义窗口：

import pandas as pd# 创建示例数据框data = {'value': [1, 2, 3, 4, 5, 6, 7, 8, 9]}df = pd.DataFrame(data)# 自定义窗口大小window_sizes = [2, 3, 4]  # 不同的窗口大小# 使用不同窗口大小执行滚动计算for window_size in window_sizes:    rolling_mean = df['value'].rolling(window=window_size).mean()    print(f'Rolling Mean with window size {window_size}:/n{rolling_mean}/n')

在这个示例中，创建了一个示例数据框并定义了不同的窗口大小列表window_sizes。然后，使用rolling方法在不同的窗口大小下计算移动平均值。通过更改window_sizes中的窗口大小，可以自定义窗口以满足不同的分析需求。

6. 边界效应

边界模式

滚动计算存在边界效应，因为在窗口的两侧可能会存在不足窗口大小的数据。Pandas提供了不同的边界模式，包括"valid"、"same"和"full"，以处理边界效应。

解决边界效应问题

可以通过指定min_periods参数来解决边界效应问题，以确保每个窗口都至少包含指定数量的非NaN值。

7. 性能优化

为了提高性能，可以使用min_periods参数来减少计算的复杂性。此参数定义了每个窗口需要包含的最少非NaN值数量。适当设置min_periods可以在不牺牲结果质量的情况下提高性能。

总结

Pandas中的rolling方法为数据分析和时间序列数据处理提供了强大的工具。它可以用于执行各种滚动计算，如移动平均、滚动标准差和滚动相关系数。通过了解rolling方法的用法、参数和窗口类型，可以更好地处理和分析数据。同时，理解边界效应和性能优化技巧有助于确保计算的准确性和效率。

本文链接：http://www.28at.com/showinfo-26-82178-0.htmlPython数据分析必备：Pandas中Rolling方法的完全指南

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：深入解析C++中Sizeof和Strlen的奥秘：区别、应用与技巧全揭秘！

下一篇：超级离谱的前端需求：搜索图片里的文字

标签：

热门焦点

6月安卓手机好评榜：魅族20 Pro蝉联冠军

性能榜和性价比榜之后，我们来看最后的安卓手机好评榜，数据来源安兔兔评测，收集时间2023年6月1日至6月30日，仅限国内市场。第一名：魅族20 Pro好评率：95%5月份的时候魅族20 Pro就是
6月安卓手机性能榜：vivo/iQOO霸占旗舰排行榜前三

2023年上半年已经正式过去了，我们也迎来了安兔兔V10版本，在新的骁龙8Gen3和天玑9300发布之前，性能榜的榜单大体会以骁龙8Gen2和天玑9200+为主，至于那颗3.36GHz的骁龙8Gen2领先
容量越大越不坏？24万块硬盘故障率报告公布这些产品零故障

8月5日消息，云存储服务商Backblaze发布了最新的硬盘故障率报告，年故障率有所上升。Backblaze发布的硬盘季度统计数据，其中包括故障率等重要方面。这些结
一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

8月5日消息，此前就有爆料称，一加首款折叠屏手机将会在第三季度上市，如今随着时间临近，新机的各种消息也开始浮出水面。据悉，这款新机将会被命名为“On
一文掌握 Golang 模糊测试（Fuzz Testing）

模糊测试（Fuzz Testing）模糊测试（Fuzz Testing）是通过向目标系统提供非预期的输入并监视异常结果来发现软件漏洞的方法。可以用来发现应用程序、操作系统和网络协议等中的漏洞或
华为开发者大会2023日程公开：开设鸿蒙HarmonyOS 4体验区

IT之家 7 月 31 日消息，华为今日公布了 HDC.Together 开发者大会 2023 的详细日程。整场大会将于 8 月 4 日-6 日之间举行，届时将发布最新一代鸿蒙 H
三星电子Q2营收60万亿韩元存储业务营收同比仍下滑超过50%

7月27日消息，据外媒报道，从三星电子所发布的财报来看，他们主要利润来源的存储芯片业务在今年二季度仍不乐观，营收同比仍在大幅下滑，所在的设备解决方案
3699元！iQOO Neo8 Pro顶配版今日首销：1TB UFS 4.0同价位唯一

5月23日，iQOO推出了全新的iQOO Neo8系列，包含iQOO Neo8和iQOO Neo8 Pro两个版本，其中标准版搭载高通骁龙8+，而Pro版更是首发搭载了联发科天玑9200+旗舰
电博会与软博会实现"线下+云端"的双线融合

在本次“电博会”与“软博会”双展会利好条件的加持下，既可以发挥展会拉动人流、信息流、资金流实现快速交互流动的作用，继而推动区域经济良性发展；又可以聚

Python数据分析必备：Pandas中Rolling方法的完全指南

1. 引言

滚动计算与滑动窗口操作

2. Pandas的rolling方法

创建rolling对象

常用参数

3. 滚动计算示例

移动平均值

滚动标准差

滚动相关系数

4. 自定义滚动函数

apply方法

自定义函数示例

计算滚动差值

计算滚动百分比变化

5. 窗口类型

固定窗口

指数加权窗口

自定义窗口

6. 边界效应

边界模式

解决边界效应问题

7. 性能优化

总结

6月安卓手机好评榜：魅族20 Pro蝉联冠军

6月安卓手机性能榜：vivo/iQOO霸占旗舰排行榜前三

容量越大越不坏？24万块硬盘故障率报告公布这些产品零故障

一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

一文掌握 Golang 模糊测试（Fuzz Testing）

华为开发者大会2023日程公开：开设鸿蒙HarmonyOS 4体验区

三星电子Q2营收60万亿韩元存储业务营收同比仍下滑超过50%

3699元！iQOO Neo8 Pro顶配版今日首销：1TB UFS 4.0同价位唯一

电博会与软博会实现"线下+云端"的双线融合

最新推荐

猜你喜欢

热门推荐

相关资讯