当前位置：首页 > 科技 > 软件

极速数据可视化！七个Pandas绘图函数助你事半功倍

来源：责编：时间：2024-01-04 09:33:41 548观看

导读一、简介在使用Pandas分析数据时，会使用Pandas函数来过滤和转换列，连接多个数据帧中的数据等操作。但是，生成图表——将数据在数据帧中可视化——通常比仅仅查看数字更有帮助。Pandas具有几个绘图函数，可以使用它们快速轻

一、简介

在使用Pandas分析数据时，会使用Pandas函数来过滤和转换列，连接多个数据帧中的数据等操作。

但是，生成图表——将数据在数据帧中可视化——通常比仅仅查看数字更有帮助。

Pandas具有几个绘图函数，可以使用它们快速轻松地实现数据可视化。我们将在本教程中介绍这些函数。

【示例代码】：https://github.com/balapriyac/python-data-analysis/blob/main/pandas-plotting-fns/pandas_plotting_functions.ipynb

二、创建Pandas数据帧

首先创建一个用于分析的示例数据帧。我们将创建一个名为df_employees的数据帧，其中包含员工记录。

我们将使用Faker和NumPy的随机模块来填充数据帧，生成200条记录。

注意：如果你的开发环境中没有安装Faker，请使用pip安装：pip install Faker。

运行以下代码片段来创建df_employees，并向其中填充记录：

import pandas as pdfrom faker import Fakerimport numpy as np# 实例化Faker对象fake = Faker()Faker.seed(27)# 为员工创建一个数据帧num_employees = 200departments = ['Engineering', 'Finance', 'HR', 'Marketing', 'Sales', 'IT']years_with_company = np.random.randint(1, 10, size=num_employees)salary = 40000 + 2000 * years_with_company * np.random.randn()employee_data = { 'EmployeeID': np.arange(1, num_employees + 1), 'FirstName': [fake.first_name() for _ in range(num_employees)], 'LastName': [fake.last_name() for _ in range(num_employees)], 'Age': np.random.randint(22, 60, size=num_employees), 'Department': [fake.random_element(departments) for _ in range(num_employees)], 'Salary': np.round(salary), 'YearsWithCompany': years_with_company}df_employees = pd.DataFrame(employee_data)# 显示数据帧的头部df_employees.head(10)

我们设置了种子以便重现结果。所以每次运行此代码，都会得到相同的记录。

以下是数据帧的前几条记录：

图片

df_employees.head(10)的输出结果

三、Pandas绘图函数

1. 散点图

散点图通常用于了解数据集中任意两个变量之间的关系。

对于df_employees数据帧，让我们创建一个散点图来可视化员工年龄和工资之间的关系。这将帮助我们了解员工年龄和工资之间是否存在一定的相关性。

要绘制散点图，我们可以使用plot.scatter()，如下所示：

# 散点图：年龄与工资df_employees.plot.scatter(x='Age', y='Salary', title='Scatter Plot: Age vs Salary', xlabel='Age', ylabel='Salary', grid=True)

对于此示例数据帧，我们并未看到员工年龄和工资之间的任何相关性。

2. 折线图

折线图适用于识别连续变量（通常是时间或类似刻度）上的趋势和模式。

在创建df_employees数据帧时，我们已经定义了员工在公司工作年限与工资之间的线性关系。因此，让我们看一下显示工作年限与平均工资变化的折线图。

我们先按工作年限分组找到平均工资，然后使用plot.line()绘制折线图：

# 折线图：平均工资随工作年限的变化趋势average_salary_by_experience = df_employees.groupby('YearsWithCompany')['Salary'].mean()df_employees['AverageSalaryByExperience'] = df_employees['YearsWithCompany'].map(average_salary_by_experience)df_employees.plot.line(x='YearsWithCompany', y='AverageSalaryByExperience', marker='o', linestyle='-', title='Average Salary Trend Over Years of Experience', xlabel='Years With Company', ylabel='Average Salary', legend=False, grid=True)

图片

由于我们选择使用员工在公司工作年限的线性关系来填充薪资字段，因此可以清晰地看到折线图反映了这一点。

3. 直方图

可以使用直方图来可视化连续变量的分布情况，方法是将数值划分成区间或分段，并显示每个分段中的数据点数量。

让我们使用plot.hist()绘制直方图来了解员工年龄的分布情况，如下所示：

# 直方图：年龄分布df_employees['Age'].plot.hist(title='Age Distribution', bins=15)

图片

4. 箱形图

箱形图有助于了解变量的分布、扩散情况，并用于识别异常值。

让我们创建一个箱形图，比较不同部门间的工资分布情况，从而对组织部的工资分布情况进行高层次的比较。

箱形图还有助于确定薪资范围以及每个部门的有用信息，如中位数薪资和潜在的异常值等。

在这里，我们使用根据“部门（Department）”分组的“薪资（Salary）”列来绘制箱形图：

# 箱形图：按部门分列的薪金分布情况df_employees.boxplot(column='Salary', by='Department', grid=True, vert=False)

图片

从箱线图中，我们可以看到某些部门的薪资分布比其他部门更广泛。

5. 条形图

如果想要了解变量在出现频率方面的分布情况，可以使用条形图。

现在，让我们使用plot.bar()绘制一个条形图来可视化员工数量：

# 条形图：按部门的员工数量df_employees['Department'].value_counts().plot.bar(title='Employee Count by Department')

图片

6. 面积图

面积图通常用于可视化在连续轴或分类轴上的累积分布变量。

对于员工数据帧，我们可以绘制不同年龄组的累积薪资分布图。为了将员工映射到基于年龄组的区间中，我们需要使用pd.cut()。

然后，我们通过“年龄组（AgeGroup）”对薪资进行累积求和。为了得到面积图，我们使用plot.area()：

# 面积图：不同年龄组的累积薪资分布df_employees['AgeGroup'] = pd.cut(df_employees['Age'], bins=[20, 30, 40, 50, 60], labels=['20-29', '30-39', '40-49', '50-59'])cumulative_salary_by_age_group = df_employees.groupby('AgeGroup')['Salary'].cumsum()df_employees['CumulativeSalaryByAgeGroup'] = cumulative_salary_by_age_groupdf_employees.plot.area(x='AgeGroup', y='CumulativeSalaryByAgeGroup', title='Cumulative Salary Distribution Over Age Groups', xlabel='Age Group', ylabel='Cumulative Salary', legend=False, grid=True)

7. 饼图

饼图有助于可视化各个部门在整体组织中的薪资分布比例。

对于我们的示例，创建一个饼图来显示组织中各个部门的薪资分布是很有意义的。

我们通过部门对员工的薪资进行分组，然后使用plot.pie()来绘制饼图：

# 饼图：按部门划分的薪资分布df_employees.groupby('Department')['Salary'].sum().plot.pie(title='Department-wise Salary Distribution', autopct='%1.1f%%')

四、总结

以上就是7个用于快速数据可视化的Pandas绘图函数。也可以尝试使用matplotlib和seaborn生成更漂亮的图表。但是对于快速数据可视化，上述这些函数非常方便。

本文链接：http://www.28at.com/showinfo-26-57406-0.html极速数据可视化！七个Pandas绘图函数助你事半功倍

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： Go Lang Fiber介绍

下一篇：五个大幅提升开发效率的VS Code技巧

标签：

热门焦点

消息称迪士尼要拍真人版《魔发奇缘》：女主可能也找黑人演员

8月5日消息，迪士尼确实有点忙，忙着将不少动画改成真人版，继《美人鱼》后，真人版《白雪公主》、《魔发奇缘》也在路上了。据外媒消息称，迪士尼将打造真人版
一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

8月5日消息，此前就有爆料称，一加首款折叠屏手机将会在第三季度上市，如今随着时间临近，新机的各种消息也开始浮出水面。据悉，这款新机将会被命名为“On
十个可以手动编写的 JavaScript 数组 API

JavaScript 中有很多API，使用得当，会很方便，省力不少。你知道它的原理吗? 今天这篇文章，我们将对它们进行一次小总结。现在开始吧。1.forEach()forEach()用于遍历数组接收一参
K8S | Service服务发现

一、背景在微服务架构中，这里以开发环境「Dev」为基础来描述，在K8S集群中通常会开放：路由网关、注册中心、配置中心等相关服务，可以被集群外部访问；图片对于测试「Tes」环境或者
一个注解实现接口幂等，这样才优雅！

场景码猿慢病云管理系统中其实高并发的场景不是很多，没有必要每个接口都去考虑并发高的场景，比如添加住院患者的这个接口，具体的业务代码就不贴了，业务伪代码如下：图片上述代码有
使用AIGC工具提升安全工作效率

在日常工作中，安全人员可能会涉及各种各样的安全任务，包括但不限于：开发某些安全工具的插件，满足自己特定的安全需求；自定义github搜索工具，快速查找所需的安全资料、漏洞poc、exp
大厂卷向扁平化

来源：新熵作者丨南枝编辑丨月见大厂职级不香了。俗话说，兵无常势，水无常形，互联网企业调整职级体系并不稀奇。7月13日，淘宝天猫集团启动了近年来最大的人力制度改革，目前已形成一
国行版三星Galaxy Z Fold5/Z Flip5发布售价7499元起

2023年8月3日，三星电子举行Galaxy新品中国发布会，正式在国内推出了新一代折叠屏智能手机三星Galaxy Z Fold5与Galaxy Z Flip5，以及三星Galaxy Tab S9
利用职权私自解除被封帐号 Meta开除20多名员工

11月18日消息，据外媒援引知情人士表示，过去一年时间内，Facebook母公司Meta解雇或处罚了20多名员工以及合同工，指控这些人通过内部系统以不当方式重置用户帐号，其

极速数据可视化！七个Pandas绘图函数助你事半功倍

一、简介

二、创建Pandas数据帧

三、Pandas绘图函数

1. 散点图

2. 折线图

3. 直方图

4. 箱形图

5. 条形图

6. 面积图

7. 饼图

四、总结

消息称迪士尼要拍真人版《魔发奇缘》：女主可能也找黑人演员

一加首款折叠屏！一加Open渲染图出炉：罕见单手可握小尺寸

十个可以手动编写的 JavaScript 数组 API

K8S | Service服务发现

一个注解实现接口幂等，这样才优雅！

使用AIGC工具提升安全工作效率

大厂卷向扁平化

国行版三星Galaxy Z Fold5/Z Flip5发布售价7499元起

利用职权私自解除被封帐号 Meta开除20多名员工

最新推荐

猜你喜欢

热门推荐

相关资讯