当前位置：首页 > 科技 > 软件

四个解决特定的任务的Pandas高效代码

来源：责编：时间：2023-12-04 17:25:59 399观看

导读在本文中，我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务，并以一种好的方式给出结果。从列表中创建字典我有一份商品清单，我想看看它们的分布情况。更具体地说：希望得到唯一值以及它们在列

在本文中，我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务，并以一种好的方式给出结果。

从列表中创建字典

我有一份商品清单，我想看看它们的分布情况。更具体地说：希望得到唯一值以及它们在列表中出现的次数。

Python字典是以这种格式存储数据的好方法。键将是字典，值是出现的次数。

这里可以使用value_counts和to_dict函数，这项任务可以在一行代码中完成。

这里有一个简单的例子来说明这种情况:

import pandas as pd  grades = ["A", "A", "B", "B", "A", "C", "A", "B", "C", "A"]  pd.Series(grades).value_counts().to_dict()  # output {'A': 5, 'B': 3, 'C': 2}

将列表转换为Pandas Series，这是Pandas的一维数据结构，然后应用value_counts函数来获得在Series中出现频率的唯一值，最后将输出转换为字典。这个操作非常高效且易于理解。

从JSON文件创建DataFrame

JSON是一种常用的存储和传递数据的文件格式。

当我们清理、处理或分析数据时，我们通常更喜欢使用表格格式(或类似表格的数据)。由于json_normalize函数，我们可以通过一个操作从json格式的对象创建Pandas DataFrame。

假设数据存储在一个名为data的JSON文件中。一般情况我们都是这样读取:

import json  with open("data.json") as f:     data = json.load(f)  data # output {'data': [{'id': 101,    'category': {'level_1': 'code design', 'level_2': 'method design'},    'priority': 9},  {'id': 102,    'category': {'level_1': 'error handling', 'level_2': 'exception logging'},    'priority': 8}]}

如果我们将这个变量传递给DataFrame构造函数，它将创建如下的DataFrame，这绝对不是一个可用的格式:

df = pd.DataFrame(data)

但是如果我们使用json_normalize函数将得到一个整洁的DataFrame格式:

df = pd.json_normalize(data, "data")

Explode函数

如果有一个与特定记录匹配的项列表。需要重新格式化它，为该列表中的每个项目提供单独的行。

这是一个经典的行分割成列的问题。有许多的不同的方法来解决这个任务。其中最简单的一个(可能是最简单的)是Explode函数。

我们以这个df为例

使用explosion函数并指定列名:

df_new = df.explode(column="data").reset_index(drop=True)

reset_index会为DataFrame分配一个新的整数索引。

combine_first函数

combine_first函数用于合并两个具有相同索引的数据结构。

它最主要的用途是用一个对象的非缺失值填充另一个对象的缺失值。这个函数通常在处理缺失数据时很有用。在这方面，它的作用与SQL中的COALESCE函数相同。

df = pd.DataFrame(    {         "A": [None, 0, 12, 5, None],          "B": [3, 4, 1, None, 11]    } )

我们需要a列中的数据。如果有一行缺少值(即NaN)，用B列中同一行的值填充它。

df["A"].combine_first(df["B"])  # output 0     3.0 1     0.0 2    12.0 3     5.0 4    11.0 Name: A, dtype: float64

可以看到的列A的第一行和最后一行取自列B。

如果我们想要使用3列，我们可以链接combine_first函数。下面的代码行首先检查列a。如果有一个缺失的值，它从列B中获取它。如果列B中对应的行也是NaN，那么它从列C中获取值。

df["A"].combine_first(df["B"]).combine_first(df["C"])

我们还可以在DataFrame级别使用combine_first函数。在这种情况下，所有缺失的值都从第二个DataFrame的相应值(即同一行，同列)中填充。

df1 = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}, index=['a', 'b', 'c', 'd']) df2 = pd.DataFrame({'A': [10, np.nan, 30, 40], 'B': [50, 60, np.nan, 80]}, index=['a', 'b', 'c', 'd']) result_df = df1.combine_first(df2)

在合并的过程中，df1 中的非缺失值填充了 df2 中对应位置的缺失值。这有助于处理两个数据集合并时的缺失值情况。

Merged DataFrame:       A     B a   1.0   5.0 b   2.0  60.0 c  30.0   7.0 d   4.0   8.0

总结

从计算简单的统计数据到高度复杂的数据清理过程，Pandas都可以快速解决任务。上面的代码可能不会经常使用，但是当你需要处理这种任务时，它们是非常好的解决办法。

本文链接：http://www.28at.com/showinfo-26-37666-0.html四个解决特定的任务的Pandas高效代码

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：深入浅出JavaScript异步编程

下一篇：开发者必备的五类AI工具，不容错过！

标签：

热门焦点

Mate60手机壳曝光致敬自己的经典设计

8月3日消息，今天下午博主数码闲聊站带来了华为Mate60的第三方手机壳图，可以让我们在真机发布之前看看这款华为全新旗舰的大致轮廓。从曝光的图片看，Mate 60背后摄像头面积依然
十个可以手动编写的 JavaScript 数组 API

JavaScript 中有很多API，使用得当，会很方便，省力不少。你知道它的原理吗? 今天这篇文章，我们将对它们进行一次小总结。现在开始吧。1.forEach()forEach()用于遍历数组接收一参
共享单车的故事讲到哪了？

来源丨海克财经与共享充电宝相差不多，共享单车已很久没有被国内热点新闻关照到了。除了一再涨价和用户直呼用不起了。近日多家媒体再发报道称，成都、天津、郑州等地多个共享单
猿辅导与新东方的两种“归途”

作者｜卓心月出品｜零态LT（ID：LingTai_LT）如何成为一家伟大企业？答案一定是对“势”的把握，这其中最关键的当属对企业战略的制定，且能够站在未来看现在，即使这其中的
当家的盒马，加速谋生

来源 | 价值星球Planet作者 | 归去来自己“当家”的盒马，开始加速谋生了。据盒马官微消息，盒马计划今年开放生鲜供应链，将其生鲜商品送往食堂。目前，盒马在上海已经与
三星显示已开始为AR设备研发硅基LED微显示屏

7月18日消息，据外媒报道，随着苹果首款头显产品Vision Pro在6月份正式推出，AR/VR/MR等头显产品也就将成为各大公司下一个重要的竞争领域，对显示屏这一关
2299元起！iQOO Pad明晚首销：性能最强天玑平板

5月23日，iQOO如期举行了新品发布会，除了首发安卓最强旗舰处理器的iQOO Neo8系列新机外，还在发布会上推出了旗下首款平板电脑——iQOO Pad，其最大的卖点
首发天玑9200+ iQOO Neo8系列发布首销售价2299元起

2023年5月23日晚，iQOO Neo8系列正式发布。其中，Neo系列首款Pro之作——iQOO Neo8 Pro强悍登场，限时售价3099元起；价位段最强性能手机iQOO Neo8同期上市
英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

据10 月 30 日外媒 TheVerge 消息报道，英特尔 Xe HPG Arc Alchemist 的正面实被曝光，不仅拥有 512 EU 版显卡，还拥有 128EU 的单风扇版本。另外，这款显卡 PCB

四个解决特定的任务的Pandas高效代码

从列表中创建字典

从JSON文件创建DataFrame

Explode函数

combine_first函数

总结

Mate60手机壳曝光致敬自己的经典设计

十个可以手动编写的 JavaScript 数组 API

共享单车的故事讲到哪了？

猿辅导与新东方的两种“归途”

当家的盒马，加速谋生

三星显示已开始为AR设备研发硅基LED微显示屏

2299元起！iQOO Pad明晚首销：性能最强天玑平板

首发天玑9200+ iQOO Neo8系列发布首销售价2299元起

英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

最新推荐

猜你喜欢

热门推荐

相关资讯