当前位置:首页 > 元宇宙 > AI

谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型

来源: 责编: 时间:2024-09-05 16:20:27 214观看
导读 9 月 3 日消息,谷歌 AI 研究人员最新推出了 CardBench 基准,主要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超

9 月 3 日消息,谷歌 AI 研究人员最新推出了 CardBench 基准,主要为学习型基数估计(cardinality estimation)满足系统评估框架需求。w1e28资讯网——每日最新资讯28at.com

CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。w1e28资讯网——每日最新资讯28at.com

项目背景

基数估计(cardinality estimation,简称 CE)是优化关系数据库查询性能的关键,涉及预测数据库查询将返回的中间结果数量,直接影响查询优化器对执行计划的选择。w1e28资讯网——每日最新资讯28at.com

对于选择高效的连接顺序、决定是否使用索引以及选择最佳连接方法来说,准确的卡入度估计至关重要。w1e28资讯网——每日最新资讯28at.com

这些决策会对查询执行时间和数据库整体性能产生重大影响。不准确的估计会导致糟糕的执行计划,从而大大降低性能,有时甚至会降低几个数量级。w1e28资讯网——每日最新资讯28at.com

现代数据库系统中广泛使用的基数估计技术,依赖于启发式(Heuristic)方法和简化模型,例如假设数据统一和列独立。w1e28资讯网——每日最新资讯28at.com

这些方法虽然计算效率高,但往往需要准确预测基数,在涉及多个表和过滤器的复杂查询中表现尤为明显。w1e28资讯网——每日最新资讯28at.com

最新的数据驱动方法试图在不执行查询的情况下,对表内和表间的数据分布进行建模,从而减少了一些开销,但在数据发生变化时仍需要重新训练。w1e28资讯网——每日最新资讯28at.com

尽管取得了这些进步,但由于缺乏全面的基准,因此很难对不同的模型进行比较,也很难评估它们在不同数据集上的通用性。w1e28资讯网——每日最新资讯28at.com

CardBench

CardBench 能在各种条件下对学习到的基数模型进行更全面的评估。该基准支持三种关键设置:w1e28资讯网——每日最新资讯28at.com

基于实例的模型,即在单个数据集上进行训练;w1e28资讯网——每日最新资讯28at.com

零点模型,即在多个数据集上进行预训练,然后在一个未见数据集上进行测试;w1e28资讯网——每日最新资讯28at.com

微调模型,即进行预训练,然后使用目标数据集的少量数据进行微调。w1e28资讯网——每日最新资讯28at.com

该基准测试提供两组训练数据:一组用于具有多个筛选条件谓词的单个表查询,另一组用于涉及两个表的二进制联接查询。w1e28资讯网——每日最新资讯28at.com

w1e28资讯网——每日最新资讯28at.com

该基准测试包括 9125 个单表查询和 8454 个二进制连接查询,适用于其中一个较小的数据集,从而确保为模型评估提供强大且具有挑战性的环境。w1e28资讯网——每日最新资讯28at.com

w1e28资讯网——每日最新资讯28at.com

例如,微调图神经网络(GNN)模型在二进制连接查询中的 q-error 中位数为 1.32,第 95 百分位数为 120,明显优于零点模型。结果表明,即使是 500 次查询,对预训练模型进行微调也能大幅提高其性能。这使它们在训练数据有限的实际应用中变得可行。w1e28资讯网——每日最新资讯28at.com

w1e28资讯网——每日最新资讯28at.com

总之,CardBench 代表了在学习的基数估计方面的重大进步。研究人员可以通过提供全面、多样的基准,系统地评估和比较不同的 CE 模型,从而促进这一关键领域的进一步创新。该基准能够支持需要较少数据和训练时间的微调模型,为训练新模型成本过高的实际应用提供了切实可行的解决方案。w1e28资讯网——每日最新资讯28at.com

附上参考地址w1e28资讯网——每日最新资讯28at.com

CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databasesw1e28资讯网——每日最新资讯28at.com

Google AI Introduces CardBench: A Comprehensive Benchmark Featuring Over 20 Real-World Databases and Thousands of Queries to Revolutionize Learned Cardinality Estimationw1e28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6704-0.html谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

下一篇: Meta 公布 Llama AI 模型家族下载量数据:全球超 3.5 亿、3.1-405B 模型最受欢迎

标签:
  • 热门焦点
  • AI网红能年赚百万,普通人的新机会来了?

    来源|运营研究社作者 | 张知白编辑 | 杨佩汶设计 | 晏谈梦洁2023 年 ,数字人成为了当红的“流量话题”和“商业机会"。不管是 AI 孙燕姿走红网络,还是 AI 数字
  • 数字虚拟人23年最新变化!

    作者:小资来源:米塔之家自2021年元宇宙“爆炸”后,作为现实世界连接元宇宙的媒介之一,大批虚拟人跑步入场。到了2022年底,据天眼查数据显示,我国目前企业名称或经营范围
  • 上、中、下游加深融合,搭建元宇宙产业全景

    元宇宙产业链涉及多种技术和多个领域。在上游,聚集着大量的技术厂商,提供元宇宙相关的硬件和软件支持;在中游,内容运营与分发领域也吸引着越来越多的企业以VR内容
  • 花房集团上市,走向元宇宙新征程

    文 | 港股研究社作者 | 熊生12月12日,花房集团在港交所成功上市,首日便受到追捧,当日最高涨幅达28.75%。继360、360数科、鲁大师后,这是“红衣教主”周
  • DAO登上了历史舞台,但是主流准备好采用DAO了吗?

    Block-807DAO要么是定义虚拟未来、无领导组织的革命性概念,要么是充满存在主义和自我毁灭挑战的反乌托邦结构,取决于你在与谁交谈。近几个月来, DAO已经从Crypto
  • 想进入web3.0?来看看哪些工作适合你

    随着对加密货币需求的增加,加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
  • 对讽刺无动于衷,Nori将碳市场放在区块链上

    当我们聊气候问题的解决方案时,以太坊区块链应该不是最首想到的,但这正是Nori所选择的方案,它建立了一个引擎,鼓励农民使用负碳耕作方法,将空气中的碳抽出并放回地
  • 这个好莱坞影视制作公司涉足NFT,让持有者在制作中发挥作用

    前米高梅首席执行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一个新的好莱坞工作室,提供 NFT,让持有者在制作中发挥作用Electromagnetic Productions 创始
  • 从4个方面解析2022年加密行业趋势

    作者:去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温,但关键瓶颈仍需解决。例如,以太坊作为DApp开发的顶级公链,仍然遭受网络拥塞和高额交
Top