当前位置:首页 > 元宇宙 > AI

谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型

来源: 责编: 时间:2024-09-05 16:20:27 6观看
导读 9 月 3 日消息,谷歌 AI 研究人员最新推出了 CardBench 基准,主要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超

9 月 3 日消息,谷歌 AI 研究人员最新推出了 CardBench 基准,主要为学习型基数估计(cardinality estimation)满足系统评估框架需求。aXC28资讯网——每日最新资讯28at.com

CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。aXC28资讯网——每日最新资讯28at.com

项目背景

基数估计(cardinality estimation,简称 CE)是优化关系数据库查询性能的关键,涉及预测数据库查询将返回的中间结果数量,直接影响查询优化器对执行计划的选择。aXC28资讯网——每日最新资讯28at.com

对于选择高效的连接顺序、决定是否使用索引以及选择最佳连接方法来说,准确的卡入度估计至关重要。aXC28资讯网——每日最新资讯28at.com

这些决策会对查询执行时间和数据库整体性能产生重大影响。不准确的估计会导致糟糕的执行计划,从而大大降低性能,有时甚至会降低几个数量级。aXC28资讯网——每日最新资讯28at.com

现代数据库系统中广泛使用的基数估计技术,依赖于启发式(Heuristic)方法和简化模型,例如假设数据统一和列独立。aXC28资讯网——每日最新资讯28at.com

这些方法虽然计算效率高,但往往需要准确预测基数,在涉及多个表和过滤器的复杂查询中表现尤为明显。aXC28资讯网——每日最新资讯28at.com

最新的数据驱动方法试图在不执行查询的情况下,对表内和表间的数据分布进行建模,从而减少了一些开销,但在数据发生变化时仍需要重新训练。aXC28资讯网——每日最新资讯28at.com

尽管取得了这些进步,但由于缺乏全面的基准,因此很难对不同的模型进行比较,也很难评估它们在不同数据集上的通用性。aXC28资讯网——每日最新资讯28at.com

CardBench

CardBench 能在各种条件下对学习到的基数模型进行更全面的评估。该基准支持三种关键设置:aXC28资讯网——每日最新资讯28at.com

基于实例的模型,即在单个数据集上进行训练;aXC28资讯网——每日最新资讯28at.com

零点模型,即在多个数据集上进行预训练,然后在一个未见数据集上进行测试;aXC28资讯网——每日最新资讯28at.com

微调模型,即进行预训练,然后使用目标数据集的少量数据进行微调。aXC28资讯网——每日最新资讯28at.com

该基准测试提供两组训练数据:一组用于具有多个筛选条件谓词的单个表查询,另一组用于涉及两个表的二进制联接查询。aXC28资讯网——每日最新资讯28at.com

aXC28资讯网——每日最新资讯28at.com

该基准测试包括 9125 个单表查询和 8454 个二进制连接查询,适用于其中一个较小的数据集,从而确保为模型评估提供强大且具有挑战性的环境。aXC28资讯网——每日最新资讯28at.com

aXC28资讯网——每日最新资讯28at.com

例如,微调图神经网络(GNN)模型在二进制连接查询中的 q-error 中位数为 1.32,第 95 百分位数为 120,明显优于零点模型。结果表明,即使是 500 次查询,对预训练模型进行微调也能大幅提高其性能。这使它们在训练数据有限的实际应用中变得可行。aXC28资讯网——每日最新资讯28at.com

aXC28资讯网——每日最新资讯28at.com

总之,CardBench 代表了在学习的基数估计方面的重大进步。研究人员可以通过提供全面、多样的基准,系统地评估和比较不同的 CE 模型,从而促进这一关键领域的进一步创新。该基准能够支持需要较少数据和训练时间的微调模型,为训练新模型成本过高的实际应用提供了切实可行的解决方案。aXC28资讯网——每日最新资讯28at.com

附上参考地址aXC28资讯网——每日最新资讯28at.com

CardBench: A Benchmark for Learned Cardinality Estimation in Relational DatabasesaXC28资讯网——每日最新资讯28at.com

Google AI Introduces CardBench: A Comprehensive Benchmark Featuring Over 20 Real-World Databases and Thousands of Queries to Revolutionize Learned Cardinality EstimationaXC28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6704-0.html谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

下一篇: Meta 公布 Llama AI 模型家族下载量数据:全球超 3.5 亿、3.1-405B 模型最受欢迎

标签:
  • 热门焦点
  • 有人狂赚千倍,资金盘游戏日进上亿,元宇宙泡沫还能吹多久?

    有人狂赚千倍,资金盘游戏日进上亿,元宇宙泡沫还能吹多久?

    你还不知道元宇宙?没关系。看看微软、Meta、英伟达的雄心壮志,便可领略元宇宙的辽阔。1月18日,微软宣布将以687亿美元收购动视暴雪,这是有史以来互联网领域最大的
  • 多地释放积极信号,元宇宙正成为地方争先竞逐的主战场?

    多地释放积极信号,元宇宙正成为地方争先竞逐的主战场?

    2月21日,2022中国·金鱼嘴元宇宙生态赋能大会在南京建邺区金鱼嘴基金街区举办,南京建邺区金鱼嘴基金街区宣布计划出资1亿元,支持元宇宙行业发展。同时,会上发布了
  • 「国产良心」NFT嘲讽了谁?

    「国产良心」NFT嘲讽了谁?

    2月23日,一个名为「国产良心」的NFT项目被许多活跃的加密用户注意到。该项目的官网风格尤为「不正经」,它丝毫没有避讳自己的小作坊出身,还将「中国人不骗中国人
  • Terra链上TVL跃升至第二

    Terra链上TVL跃升至第二

    据DefiLlama数据显示,当前,Terra链上应用锁仓的加密资产价值(TVL)为172.1亿美元,在公链板块中已跃升至第二,超越了币安智能链TVL的118亿美元,TVL排名居首的仍为以太
  • 传统互联网与区块链场景下数据权利法律分析

    传统互联网与区块链场景下数据权利法律分析

    数据权益的复杂性在于数据涉及多环节多主体、内容不同质且与不同场景紧密联系、对软硬件技术环节紧密相关等方面的复杂性。在传统互联网与区块链模式下,数据处
  • 音乐NFT平台里的下一匹黑马是谁?

    音乐NFT平台里的下一匹黑马是谁?

    NFT 销售额在 2021 年开始暴涨,从 2018 年的仅 4069 万美元的交易量,到 2021 年,NFT 交易量飙升至 442 亿美元以上,并不断刷新记录并达到新的高度。预测到2025 年N
  • Web 3如何改变传统HR

    Web 3如何改变传统HR

    互联网自诞生以来,经历了三次迭代。Web1是第一阶段,包括ISP服务器上的个人网页或免费的虚拟主机服务。然后Web2出现了,它引入了动态的用户生成内容、互操作性、增
  • 下一个黄金赛道?NFT的碎片化!

    下一个黄金赛道?NFT的碎片化!

    碎片化可能是我们一生中最重要的一个投资趋势,碎片化本身并不新鲜。它已经存在了400年之久。早在1602年,荷兰东印度公司是历史上第一家在公共证券交易所上市的公
  • 顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

    顶级NFT收藏家Gary Vaynerchuk 与百威推出NFT

    特别声明,我们的文章不作为投资建议,请各位读者独立思考,还是那句话:投资要慎之又慎,谁也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
Top