当前位置：首页 > 元宇宙 > AI

谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型

来源：责编：时间：2024-09-05 16:20:27 263观看

导读 9 月 3 日消息，谷歌 AI 研究人员最新推出了 CardBench 基准，主要为学习型基数估计（cardinality estimation）满足系统评估框架需求。CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超

9 月 3 日消息，谷歌 AI 研究人员最新推出了 CardBench 基准，主要为学习型基数估计（cardinality estimation）满足系统评估框架需求。

CardBench 基准是个综合评估框架，包含 20 个不同真实数据库中的数千次查询，大大超过了以往的任何基准。

项目背景

基数估计（cardinality estimation，简称 CE）是优化关系数据库查询性能的关键，涉及预测数据库查询将返回的中间结果数量，直接影响查询优化器对执行计划的选择。

对于选择高效的连接顺序、决定是否使用索引以及选择最佳连接方法来说，准确的卡入度估计至关重要。

这些决策会对查询执行时间和数据库整体性能产生重大影响。不准确的估计会导致糟糕的执行计划，从而大大降低性能，有时甚至会降低几个数量级。

现代数据库系统中广泛使用的基数估计技术，依赖于启发式（Heuristic）方法和简化模型，例如假设数据统一和列独立。

这些方法虽然计算效率高，但往往需要准确预测基数，在涉及多个表和过滤器的复杂查询中表现尤为明显。

最新的数据驱动方法试图在不执行查询的情况下，对表内和表间的数据分布进行建模，从而减少了一些开销，但在数据发生变化时仍需要重新训练。

尽管取得了这些进步，但由于缺乏全面的基准，因此很难对不同的模型进行比较，也很难评估它们在不同数据集上的通用性。

CardBench

CardBench 能在各种条件下对学习到的基数模型进行更全面的评估。该基准支持三种关键设置：

基于实例的模型，即在单个数据集上进行训练；

零点模型，即在多个数据集上进行预训练，然后在一个未见数据集上进行测试；

微调模型，即进行预训练，然后使用目标数据集的少量数据进行微调。

该基准测试提供两组训练数据：一组用于具有多个筛选条件谓词的单个表查询，另一组用于涉及两个表的二进制联接查询。

该基准测试包括 9125 个单表查询和 8454 个二进制连接查询，适用于其中一个较小的数据集，从而确保为模型评估提供强大且具有挑战性的环境。

例如，微调图神经网络（GNN）模型在二进制连接查询中的 q-error 中位数为 1.32，第 95 百分位数为 120，明显优于零点模型。结果表明，即使是 500 次查询，对预训练模型进行微调也能大幅提高其性能。这使它们在训练数据有限的实际应用中变得可行。

总之，CardBench 代表了在学习的基数估计方面的重大进步。研究人员可以通过提供全面、多样的基准，系统地评估和比较不同的 CE 模型，从而促进这一关键领域的进一步创新。该基准能够支持需要较少数据和训练时间的微调模型，为训练新模型成本过高的实际应用提供了切实可行的解决方案。

附上参考地址

CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases

Google AI Introduces CardBench: A Comprehensive Benchmark Featuring Over 20 Real-World Databases and Thousands of Queries to Revolutionize Learned Cardinality Estimation

本文链接：http://www.28at.com/showinfo-45-6704-0.html谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

下一篇： Meta 公布 Llama AI 模型家族下载量数据：全球超 3.5 亿、3.1-405B 模型最受欢迎

标签：

热门焦点

一个视频涨粉百万，柳夜熙们能成为元宇宙的“船票”吗？

当数字人成为一种生意，我们更关心的是，他们如何赚到钱，以及这意味着什么？01#“柳夜熙”爆火之后不知道大家还记不记得，去年10月31日万圣节，有一位虚拟美妆
2022开年最热投资赛道竟是虚拟人，背后隐藏了什么商业价值？

在刚刚结束不久的2021年江苏卫视跨年演唱会上，虚拟邓丽君与歌手周深同台联唱，实现了跨时代合作，而这还不只是“邓丽君”，哔哩哔哩、东方卫视等多家跨年晚会都出现
比特币的价格越高，使用价值越大

隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势，但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下，彰显着市场活跃度的
Layer1的新以太坊，更好的以太坊？

以太坊作为区块链基础设施地位看起来已不可动摇，但也面临着费用高、效率低、偏离去中心化初衷等问题。平台上既得利益群体的形成和固化也逐渐让革新变得困难。
2022年6款最佳的NFT稀有度查询工具

NFT正在风靡全球，但拥有一个你自认为看起来很酷的 NFT 是不够的，因为它还应该是稀有的，稀有度会影响每个 NFT 的价值。因此，如果您打算投资 NFT，则需要使用 NFT 稀
Meta正在研发元宇宙语音助手；广东省462家企业申请元宇宙商标

今日《元宇宙新鲜事》有：扎克伯格透露正在为元宇宙研发语音助手；完美世界声明称不会以“元宇宙投资项目”等名义吸收资金。广东省申请元宇宙商标的企业达462家位
NFT高玩必备：NFT分析工具大盘点

NFT市场的火热让越来越多的投资者投身其中，但当前的 NFT 生态系统存在几个问题却困扰了大多数人，如难以准确评估 NFT 项目的资产价格、缺乏 NFT 市场动态信息、
元宇宙不完全是想出来的，而是实打实做出来的

沈阳强调，元宇宙不完全是想出来的，而是靠实打实做出来的；互联网向三维化升级是已经明确的大方向，这意味着大量的资金和技术会持续涌入。跨入2022年，元宇宙并没有“
初探元宇宙

2021年可以被称为“元宇宙”元年。继2021年3月沙盒游戏平台Roblox将“元宇宙”概念放入招股书中，被称为“元宇宙”第一股后，Facebook更名为Meta, 引发全球范围内

首页

元宇宙

NFT

区块链

虚拟人

AR/VR

AI

元宇宙百科

谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型

一个视频涨粉百万，柳夜熙们能成为元宇宙的“船票”吗？

2022开年最热投资赛道竟是虚拟人，背后隐藏了什么商业价值？

比特币的价格越高，使用价值越大

Layer1的新以太坊，更好的以太坊？

2022年6款最佳的NFT稀有度查询工具

Meta正在研发元宇宙语音助手；广东省462家企业申请元宇宙商标

NFT高玩必备：NFT分析工具大盘点

元宇宙不完全是想出来的，而是实打实做出来的

初探元宇宙

最新推荐

AI大模型“战火”烧到了教育领域

三院士三教授热聊元宇宙&——AIGC，学术界怎么看？

Meta元宇宙女性安全问题频发，元宇宙中相关问题该如何解决？

本周NFT领域重要资讯回顾

Interface正大光明的“跑路”，社区成员赞格局大

MR——元宇宙平台的下一代入口

猜你喜欢

热门推荐

相关资讯