当前位置:首页 > 元宇宙 > AI

谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型

来源: 责编: 时间:2024-09-05 16:20:27 200观看
导读 9 月 3 日消息,谷歌 AI 研究人员最新推出了 CardBench 基准,主要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超

9 月 3 日消息,谷歌 AI 研究人员最新推出了 CardBench 基准,主要为学习型基数估计(cardinality estimation)满足系统评估框架需求。2vn28资讯网——每日最新资讯28at.com

CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。2vn28资讯网——每日最新资讯28at.com

项目背景

基数估计(cardinality estimation,简称 CE)是优化关系数据库查询性能的关键,涉及预测数据库查询将返回的中间结果数量,直接影响查询优化器对执行计划的选择。2vn28资讯网——每日最新资讯28at.com

对于选择高效的连接顺序、决定是否使用索引以及选择最佳连接方法来说,准确的卡入度估计至关重要。2vn28资讯网——每日最新资讯28at.com

这些决策会对查询执行时间和数据库整体性能产生重大影响。不准确的估计会导致糟糕的执行计划,从而大大降低性能,有时甚至会降低几个数量级。2vn28资讯网——每日最新资讯28at.com

现代数据库系统中广泛使用的基数估计技术,依赖于启发式(Heuristic)方法和简化模型,例如假设数据统一和列独立。2vn28资讯网——每日最新资讯28at.com

这些方法虽然计算效率高,但往往需要准确预测基数,在涉及多个表和过滤器的复杂查询中表现尤为明显。2vn28资讯网——每日最新资讯28at.com

最新的数据驱动方法试图在不执行查询的情况下,对表内和表间的数据分布进行建模,从而减少了一些开销,但在数据发生变化时仍需要重新训练。2vn28资讯网——每日最新资讯28at.com

尽管取得了这些进步,但由于缺乏全面的基准,因此很难对不同的模型进行比较,也很难评估它们在不同数据集上的通用性。2vn28资讯网——每日最新资讯28at.com

CardBench

CardBench 能在各种条件下对学习到的基数模型进行更全面的评估。该基准支持三种关键设置:2vn28资讯网——每日最新资讯28at.com

基于实例的模型,即在单个数据集上进行训练;2vn28资讯网——每日最新资讯28at.com

零点模型,即在多个数据集上进行预训练,然后在一个未见数据集上进行测试;2vn28资讯网——每日最新资讯28at.com

微调模型,即进行预训练,然后使用目标数据集的少量数据进行微调。2vn28资讯网——每日最新资讯28at.com

该基准测试提供两组训练数据:一组用于具有多个筛选条件谓词的单个表查询,另一组用于涉及两个表的二进制联接查询。2vn28资讯网——每日最新资讯28at.com

2vn28资讯网——每日最新资讯28at.com

该基准测试包括 9125 个单表查询和 8454 个二进制连接查询,适用于其中一个较小的数据集,从而确保为模型评估提供强大且具有挑战性的环境。2vn28资讯网——每日最新资讯28at.com

2vn28资讯网——每日最新资讯28at.com

例如,微调图神经网络(GNN)模型在二进制连接查询中的 q-error 中位数为 1.32,第 95 百分位数为 120,明显优于零点模型。结果表明,即使是 500 次查询,对预训练模型进行微调也能大幅提高其性能。这使它们在训练数据有限的实际应用中变得可行。2vn28资讯网——每日最新资讯28at.com

2vn28资讯网——每日最新资讯28at.com

总之,CardBench 代表了在学习的基数估计方面的重大进步。研究人员可以通过提供全面、多样的基准,系统地评估和比较不同的 CE 模型,从而促进这一关键领域的进一步创新。该基准能够支持需要较少数据和训练时间的微调模型,为训练新模型成本过高的实际应用提供了切实可行的解决方案。2vn28资讯网——每日最新资讯28at.com

附上参考地址2vn28资讯网——每日最新资讯28at.com

CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases2vn28资讯网——每日最新资讯28at.com

Google AI Introduces CardBench: A Comprehensive Benchmark Featuring Over 20 Real-World Databases and Thousands of Queries to Revolutionize Learned Cardinality Estimation2vn28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6704-0.html谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

下一篇: Meta 公布 Llama AI 模型家族下载量数据:全球超 3.5 亿、3.1-405B 模型最受欢迎

标签:
  • 热门焦点
  • 《从营销AIGC化到AIGC营销化》报告发布

    来源:清元宇宙7月2日上午,清华大学元宇宙文化实验室举办元宇宙在线沙龙“AIGC热潮与应用”。会议中,清华大学新闻与传播学院教授、元宇宙文化实验室主任、新媒体研究
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • 刷完一场元宇宙世界杯音乐盛典,我爽了

    作者|刘小土编辑|李春晖你有多久没完整追过一场音乐盛典了?三刷都不嫌多的那种。按照惯例,每逢年底,直播、长短视频、音乐平台便会抢着端上来几场音乐盛典。搁以
  • 元宇宙风口下,视觉中国如何重估?

    要说横跨2021年和2022年,到目前仍然很火的概念,元宇宙肯定要算一个。不仅互联网巨头们纷纷布局,上市公司们趋之若鹜,还被不少地方政府写入了产业规划,大有在2022年
  • NFT盗窃案:为什么NFT市场被盗窃和黑客所困扰?

    Block-806NFT的增长值得关注。许多人愿意为数字艺术支付数百万美元,世界正在走向数字化。报告显示,NFT市场和NFT收藏从2020年的1.06亿美元增加到了2021年的442亿
  • 这场虚拟发布会,当面“造假”!

    英伟达去年4月份那场发布会,你曾看出什么不对劲的地方吗?你品,你细品——在计算机图形学顶会SIGGRAPH 2021上,英伟达通过一部纪录片自曝:那场发布会内藏玄机~你看到
  • 从NFT数字收藏,洞察数字音乐版权市场发展趋势

    去年8月9日,腾讯音乐布局NFT数字收藏,在腾讯应用宝发布幻核app,腾讯音乐的提前布局示意着未来区块链技术将对数字音乐版权市场进行改造升级。作者从深层测分析为
  • 我们为什么需要Web3,距离Web3的实现还有多远?

    当今技术正在经历着重要的变革,许多公司正在改变他们的经营模式以求变得更加的灵活,其中有很大一部分公司采用了不同的方式来发展自己的业务。其中之一就是Web3,
  • PayPal CEO 的加密语录:加密货币将重新定义金融世界

    PayPal 近年来一直是加密行业的倡导者。这个本身拥有超过 3.5 亿名活跃用户的支付巨头,已经允许美国和英国的用户交易或持有比特币(BTC)、以太坊(ETH)、比特现金(BCH

猜你喜欢

    SQL Error: select * from ***_ecms_news13 where id in(230,98,282,238,187,) limit 6
Top