当前位置：首页 > 科技 > 软件

Python数据分析专用数据库，与pandas结合，10倍提速+极致体验

来源：责编：时间：2023-12-11 09:28:45 375观看

导读你有想过在 pandas 中直接使用 sql吗？我知道许多小伙伴已经知道一些库也可以做到这种体验，不过他们的性能太差劲了(基于sqlite，或其他服务端数据库)。今天我要介绍另一个专用于数据分析的列式数据库，性能是其他同体验的库

你有想过在 pandas 中直接使用 sql吗？我知道许多小伙伴已经知道一些库也可以做到这种体验，不过他们的性能太差劲了(基于sqlite，或其他服务端数据库)。

今天我要介绍另一个专用于数据分析的列式数据库，性能是其他同体验的库的1000倍以上。可以无缝接入 pandas ，做到了性能与使用体验同时提升。

这就是今天的主角，duckdb。

特点

duckdb 是一个单机数据库，你大概率会用它与 sqlite 比较。

最明显的区别就是，duckdb 是一个分析数据管理系统，而 sqlite 是一个事务型关系数据库。

这意味着，如果你现在有一大堆数据处理任务，期间无须顾忌会有其他用户插入新数据或删除数据。那么 duckdb 就可以非常好应对这种场景。

对于我们这种 pandas 老用户，duckdb 支持 pandas 的 dataFrame 通用底层格式(parquet/arrow等)上并行运行查询，而且没有单独的导入步骤。这就是它能保持使用体验的同时，大幅提升查询性能的最大原因。

我们需要安装这些库：

pip install pandas duckdb -U

先看一个例子，看看它是如何便捷与 dataframe 交互。

变量等于表名？

首先，导入今天需要用到的库：

我们有一大堆销售数据，加载其中一份数据看看：

此时，希望使用 sql 做一些数据查询处理，你认为下面的 sql 简单吗？

(1) 直接使用 dataframe 的变量名作为表名查询

这真的可以做到吗？加上一点点 duckdb 的调用即可：

(2) duckdb.query 做查询

(3) df，把查询结果转回 dataframe

也就是，可以直接使用当前环境下的变量作为表名。

我知道之前就有其他的库可以做到这种体验，但是必需强调，duckdb 是直接使用 dataframe 的内存数据(因为底层数据格式通用)，因此，这个过程中的输入和输出数据的传输时间几乎可以忽略不计。

并且，这个过程中，duckdb比 pandas 更快处理数据(多线程)，并且内存使用量也比 pandas 要低得多。

特别在一些需要分组的数据处理任务上，就算只使用单线程的 duckdb 也会比 pandas 的快两倍。如果是过滤+分组+列投影，会存在 5-8倍的差异。

如果加上表连接，则可能会到 15倍的差异。

如果使用其他的一些 pandas 使用 sql 的库，比如 pandasSql ，它比 duckdb 性能差距 1000倍以上！

以上性能对比指标，均是 duckdb 官方说明，以后有机会实际操作对比。

性能方面，就"吹"到这里。但是，我说 duckdb 有极致的使用体验，不仅仅只是可以直接使用 dataframe 变量名作为表名写 sql 。而是它提供了许多 sql 引擎没有的优化语法体验。

sql 的一些语法小痛点，duckdb 也在努力解决

现在我们需要加载所有的销售数据文件，如果使用 pandas 加载，则是这样子：

行3：得到 data 目录下所有 csv 的文件路径
行2：使用 pandas 加载

duckdb提供了许多方便的内置函数：

行3：表名可以直接是本地的文件。同时还支持通配符

默认情况下，duckdb 会把 csv 的第一行也加入到记录中：

可以使用内置函数，通过参数设定一些加载规则：

行4： read_csv_auto 可以设置具体加载文件时的设定

不过，这个 header 参数其实是加载所有数据之后，再设置第一行为表头。所以会看到实际数据仍然有一些表头行：

我们可以直接在条件过滤中一步到位过滤掉无用的行：

此时，我们可以随时切换使用方式。

sql 中有一些语句在特定场景下，会显得"无意义"。比如我希望查询所有的列：

每次都写一句 select * ，有点麻烦。在 duckdb 里面，我们可以直接省略 select 语句。

有时候，我们希望排除某几列，可以这么写：

行2：使用 * exclude ，里面指定你希望排除的列名即可。注意，因为有一些列名有空格，你需要用双引号或单引号包围

这些功能都得益于它基于的列式数据储存方式。

再看几个小小的 sql 体验改进。

别名用在过滤条件中：

自动识别分组列名：

它还有许多有意思的特性，如果希望我后续做更多的教学，评论区告诉我。

duckdb 是一个很有潜力的数据分析处理工具，结合 pandas 能否大幅提升我们的工作效率，值得大家尝试使用。

本文链接：http://www.28at.com/showinfo-26-41716-0.htmlPython数据分析专用数据库，与pandas结合，10倍提速+极致体验

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：五个令人惊叹的Jupyter黑科技

下一篇：数据加密难做？试试这个库

标签：

热门焦点

一加Ace2 Pro真机揭晓钛空灰配色质感拉满

终于，在经过了几波预热之后，一加Ace2 Pro的外观真机图在网上出现了。还是博主数码闲聊站曝光的，这次的外观设计还是延续了一加11的方案，只是细节上有了调整，例如新加入了钛空灰
直屏旗舰来了 iQOO 12和K70 Pro同台竞技

旗舰机基本上使用的都是双曲面屏幕，这就让很多喜欢直屏的爱好者在苦等一款直屏旗舰，这次，你们等到了。据博主数码闲聊站带来的最新爆料称，Redmi下代旗舰K70 Pro和iQOO 12两款手
Flowable工作流引擎的科普与实践

一.引言当我们在日常工作和业务中需要进行各种审批流程时，可能会面临一系列技术和业务上的挑战。手动处理这些审批流程可能会导致开发成本的增加以及业务复杂度的上升。在这
如何使用JavaScript创建一只图像放大镜？

译者 | 布加迪审校 | 重楼如果您曾经浏览过购物网站，可能遇到过图像放大功能。它可以让您放大图像的特定区域，以便浏览。结合这个小小的重要功能可以大大改善您网站的用户体验
苹果、三星、惠普等暂停向印度出口笔记本和平板电脑

集微网消息，据彭博社报道，在8月3日印度突然禁止在没有许可证的情况下向印度进口电脑/平板及显示器等产品后，苹果、三星电子和惠普等大公司暂停向印度
三星电子Q2营收60万亿韩元存储业务营收同比仍下滑超过50%

7月27日消息，据外媒报道，从三星电子所发布的财报来看，他们主要利润来源的存储芯片业务在今年二季度仍不乐观，营收同比仍在大幅下滑，所在的设备解决方案
苹果公司要求三星和LG Display生产「无边框」OLED iPhone显示屏

据 The Elec 报道，苹果已要求其供应商为未来的 iPhone 型号开发「无边框」OLED 显示面板。苹果显然已要求三星和 LG Display 开发新的 OLED 显示面
荣耀Magicbook V 14 2021曙光蓝版本正式开售，拥有触摸屏

荣耀 Magicbook V 14 2021 曙光蓝版本正式开售，搭载 i7-11390H 处理器与 MX450 显卡，配备 16GB 内存与 512GB SSD，重 1.48kg，厚 14.5mm，具有 1.5mm 键盘键程、
“买真退假” 这种“羊毛”不能薅

□ 法治日报记者王春　　□ 本报通讯员胡佳丽　　2020年初，还在上大学的小东加入了一个大学生兼职QQ群。群主“七王”在群里介绍一些刷单赚

Python数据分析专用数据库，与pandas结合，10倍提速+极致体验

特点

变量等于表名？

sql 的一些语法小痛点，duckdb 也在努力解决

一加Ace2 Pro真机揭晓钛空灰配色质感拉满

直屏旗舰来了 iQOO 12和K70 Pro同台竞技

Flowable工作流引擎的科普与实践

如何使用JavaScript创建一只图像放大镜？

苹果、三星、惠普等暂停向印度出口笔记本和平板电脑

三星电子Q2营收60万亿韩元存储业务营收同比仍下滑超过50%

苹果公司要求三星和LG Display生产「无边框」OLED iPhone显示屏

荣耀Magicbook V 14 2021曙光蓝版本正式开售，拥有触摸屏

“买真退假” 这种“羊毛”不能薅

最新推荐

猜你喜欢

热门推荐

相关资讯