当前位置：首页 > 科技 > 软件

使用Python分析时序数据集中的缺失数据

来源：责编：时间：2023-10-10 18:31:46 389观看

导读简介时间序列数据几乎每秒都会从多种来源收集，因此经常会出现一些数据质量问题，其中之一是缺失数据。在序列数据的背景下，缺失信息可能由多种原因引起，包括采集系统的错误（例如传感器故障）、传输过程中的错误（例如网络连接的

简介

时间序列数据几乎每秒都会从多种来源收集，因此经常会出现一些数据质量问题，其中之一是缺失数据。

在序列数据的背景下，缺失信息可能由多种原因引起，包括采集系统的错误（例如传感器故障）、传输过程中的错误（例如网络连接的故障）或者数据收集过程中的错误（例如数据记录过程中的人为错误）。这些情况经常会在数据集中产生零散和明确的缺失值，对应于采集数据流中的小缺口。

此外，缺失信息也可能由于领域本身的特性而自然产生，从而在数据中形成较大的缺口。例如，某个特征在一段时间内停止采集，从而产生非显性的缺失数据。

无论底层原因如何，时间序列中存在缺失数据会对预测和预测模型产生严重的不利影响，并且可能对个人（例如误导的风险评估）和业务结果（例如偏差的业务决策、收入和机会的损失）造成严重后果。

因此，在为建模方法准备数据时，一个重要的步骤是能够识别这些未知信息的模式，因为它们将帮助我们决定处理数据的最佳方法，以提高数据的一致性和效率，可以通过某种形式的对齐校正、数据插值、数据填补，或者在某些情况下，进行逐案删除（即，在特定分析中对具有缺失值的特征省略案例）。

因此，进行全面的探索性数据分析和数据剖析是不可或缺的，这不仅有助于理解数据特征，还能就如何为分析准备最佳数据做出明智决策。

在这个实践教程中，我们将探索如何使用新版本ydata-profiling最近推出的功能来解决这些相关问题。本文将使用Kaggle上提供的美国污染数据集（许可证DbCL v1.0），该数据集详细记录了美国各州的NO2、O3、SO2和CO污染物的信息。

【ydata-profiling】：https://github.com/ydataai/ydata-profiling

【Kaggle上提供的美国污染数据集】：https://www.kaggle.com/datasets/sogun3/uspollution?resource=download

实践教程：对美国污染数据集进行剖析

为了开始我们的教程，首先需要安装最新版本的ydata-profiling：

pip install ydata-profiling==4.5.1

然后就可以加载数据，删除不必要的特征，并专注于我们要研究的内容。为了本例的目的，我们将重点研究亚利桑那州马里科帕县斯科茨代尔站测量的空气污染物的特定行为：

import pandas as pd data = pd.read_csv("data/pollution_us_2000_2016.csv")data = data.drop('Unnamed: 0', axis = 1) # 删除不必要的索引 # 从亚利桑那州，马里科帕县，斯科茨代尔站（站点编号：3003）选择数据data_scottsdale = data[data['Site Num'] == 3003].reset_index(drop=True)

现在，准备开始对数据集进行剖析！请记住，在使用时间序列剖析时，我们需要传递参数tsmode=True，以便ydata-profiling可以识别与时间相关的特征：

# 将'Date Local'改为日期时间格式data_scottsdale['Date Local'] = pd.to_datetime(data_scottsdale['Date Local']) # 创建概述报告profile_scottsdale = ProfileReport(data_scottsdale, tsmode=True, sortby="Date Local")profile_scottsdale.to_file('profile_scottsdale.html')

时间序列概述

输出报告将与我们已经知道的内容一样熟悉，但在体验上有所改进，并新增了时间序列数据的汇总统计：

图片

从概述中可以通过查看所提供的汇总统计数据，从而对该数据集有一个整体的了解：

它包含14个不同的时间序列，每个时间序列有8674个记录值；
该数据集报告了2000年1月至2010年12月的10年数据；
时间序列的平均时间间隔为11小时零7分钟左右。这意味着平均而言每11小时就进行一次测量。

还可以获取数据中所有序列的概览图，可以选择以原始值或缩放值显示：可以很容易地把握序列的总体变化情况，以及正在测量的组分（二氧化氮、臭氧、二氧化硫、一氧化碳）和特征（平均值、第一最大值、第一最大小时、空气质量指数）。

检查缺失数据

在对数据有一个总体了解之后，我们可以关注每个时间序列的具体情况。

在最新版本的ydata-profiling中，分析报告在针对时间序列数据方面进行了大幅改进，即针对“时间序列”和“间隙分析”指标进行报告。这些新功能极大地方便了趋势和缺失模式的识别，现在还提供了具体的汇总统计数据和详细的可视化。

所有时间序列都会呈现不稳定模式，其中在连续测量之间似乎存在某种“跳跃”。这表明存在缺失数据（缺失信息的“间隙”），应该对其进行更仔细的研究。本文以S02 Mean为例来看一下。

图片

在研究间隙分析所提供的细节时，可以获得对于已识别间隙特征的信息描述。总体而言，时间序列中有25个间隙，最短间隔为4天，最长为32周，平均为10周。

从所呈现的可视化效果中，可以注意到较为“随机”的细条纹代表的是较小的间隙，而较大的间隙似乎遵循着一种重复的模式。这表明我们的数据集中存在两种不同的缺失数据模式。

较小的间隙对应于产生缺失数据的零星事件，很可能是由于采集过程中的错误而发生的，通常可以很容易地对数据进行插值或从数据集中删除。反之，较大的间隙则更为复杂，需要进行更详细的分析，因为它们可能揭示了需要更彻底解决的潜在模式。

在本文的例子中，如果我们调查较大的间隙，实际上会发现它们反映了一个季节性模式：

df = data_scottsdale.copy()for year in df["Date Local"].dt.year.unique():    for month in range(1,13):        if ((df["Date Local"].dt.year == year) & (df["Date Local"].dt.month ==month)).sum() == 0:            print(f'Year {year} is missing month {month}.')

# Year 2000 is missing month 4.# Year 2000 is missing month 5.# Year 2000 is missing month 6.# Year 2000 is missing month 7.# Year 2000 is missing month 8.# (...)# Year 2007 is missing month 5.# Year 2007 is missing month 6.# Year 2007 is missing month 7.# Year 2007 is missing month 8.# (...)# Year 2010 is missing month 5.# Year 2010 is missing month 6.# Year 2010 is missing month 7.# Year 2010 is missing month 8.

正如我们所猜测的那样，时间序列中呈现出一些较大的信息间隙，它们似乎具有重复性，甚至是季节性的：在大多数年份中，从5月到8月（第5至8个月）之间未收集数据。出现这种情况可能是由于不可预测的原因，或者与业务决策有关，例如与削减成本有关的决定，或者仅仅是与天气模式、温度、湿度和大气条件相关的污染物的季节性变化有关。

根据这些发现，我们可以进一步调查为什么会发生这种情况，是否应该采取措施防止今后出现这种情况，以及如何处理我们目前拥有的数据。

最后的思考：填补、删除、重新对齐？

在本教程中，已经了解到理解时间序列中缺失数据模式的重要性，以及有效的分析方法如何揭示缺失信息的奥秘。无论是电信、医疗、能源还是金融等所有收集时间序列数据的行业，都会在某个时候面临缺失数据的问题，并需要决定处理和从中提取所有可能知识的最佳方法。

通过全面的数据分析，我们可以根据手里拥有的数据特征做出明智而高效的决策：

信息间隙可能是由于采集、传输和收集过程中的零星事件导致的。我们可以通过修复问题以防止其再次发生，并根据间隙的长度进行插值或填补缺失数据。
信息间隙也可能表示季节性或重复性模式。我们可以选择重构我们的流程，开始收集缺失的信息，或者用来自其他分布式系统的外部信息替代缺失的间隙。我们还可以确定检索过程是否失败（也许是在数据工程方面输入错误的查询）。

希望本教程能够帮助你正确识别和描述时间序列数据中的缺失数据，期待你在间隙分析中的发现！

本文链接：http://www.28at.com/showinfo-26-12731-0.html使用Python分析时序数据集中的缺失数据

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：如何校验内存数据的一致性，DynamicExpresso 算是帮上大忙了

下一篇：构建容器化的电子签名和文件加密系统：保护数据的完整性与隐私

标签：

热门焦点

官方承诺：K60至尊版将会首批升级MIUI 15

全新的MIUI 15今天也有了消息，在官宣了K60至尊版将会搭载天玑9200+处理器和独显芯片X7的同时，Redmi给出了官方承诺，K60至尊重大更新首批升级，会首批推送MIUI 15。也就是说虽然
vivo TWS Air开箱体验：真轻臻好听

在vivo S15系列新机的发布会上，vivo的最新款真无线蓝牙耳机vivo TWS Air也一同发布，本次就这款耳机新品给大家带来一个简单的分享。外包装盒上，vivo TWS Air保持了vivo自家产
服务存储设计模式：Cache-Aside模式

Cache-Aside模式一种常用的缓存方式，通常是把数据从主存储加载到KV缓存中，加速后续的访问。在存在重复度的场景，Cache-Aside可以提升服务性能，降低底层存储的压力，缺点是缓存和底
量化指标是与非：挽救被量化指标扼杀的技术团队

作者 | 刘新翠整理 | 徐杰承本文整理自快狗打车技术总监刘新翠在WOT2023大会上的主题分享，更多精彩内容及现场PPT，请关注51CTO技术栈公众号，发消息【WOT2023PPT】即可直接领取
如何使用JavaScript创建一只图像放大镜？

译者 | 布加迪审校 | 重楼如果您曾经浏览过购物网站，可能遇到过图像放大功能。它可以让您放大图像的特定区域，以便浏览。结合这个小小的重要功能可以大大改善您网站的用户体验
华为HarmonyOS 4.0将于8月4日发布或搭载AI大模型技术

华为宣布HarmonyOS4.0将于8月4日正式发布。此前，华为已经针对开发者公布了HarmonyOS4.0，以便于开发者提前进行适配，也因此被曝光出了一些新系统的特性
三星推出Galaxy Tab S9系列平板电脑以及Galaxy Watch6系列智能手表

2023年7月26日，三星电子正式发布了Galaxy Z Flip5与Galaxy Z Fold5。除此之外，Galaxy Tab S9系列平板电脑以及三星Galaxy Watch6系列智能手表也同期
iQOO 11S或7月上市：搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

去年底，iQOO推出了“电竞旗舰”iQOO 11系列，作为一款性能强机，iQOO 11不仅全球首发2K 144Hz E6全感屏，搭载了第二代骁龙8平台及144Hz电竞屏，同时在快充
电博会与软博会实现"线下+云端"的双线融合

在本次“电博会”与“软博会”双展会利好条件的加持下，既可以发挥展会拉动人流、信息流、资金流实现快速交互流动的作用，继而推动区域经济良性发展；又可以聚

使用Python分析时序数据集中的缺失数据

简介

实践教程：对美国污染数据集进行剖析

时间序列概述

检查缺失数据

最后的思考：填补、删除、重新对齐？

官方承诺：K60至尊版将会首批升级MIUI 15

vivo TWS Air开箱体验：真轻臻好听

服务存储设计模式：Cache-Aside模式

量化指标是与非：挽救被量化指标扼杀的技术团队

如何使用JavaScript创建一只图像放大镜？

华为HarmonyOS 4.0将于8月4日发布或搭载AI大模型技术

三星推出Galaxy Tab S9系列平板电脑以及Galaxy Watch6系列智能手表

iQOO 11S或7月上市：搭载“鸡血版”骁龙8Gen2 史上最强5G Soc

电博会与软博会实现"线下+云端"的双线融合

最新推荐

猜你喜欢

热门推荐

相关资讯