当前位置:网者头条 >> 科学知识

研究人员介绍了数据库的生成AI

科学知识 2025-09-27 7157

摘要:研究人员已经开发了一种易于使用的工具,该工具使某人仅使用少量击键对表格数据进行复杂的统计分析。他们的方法将概率AI模型与编程语言SQL相结合,比其他方法更快,更准确。...

一个新工具使数据库用户更容易对表格数据进行复杂的统计分析,而无需知道幕后发生了什么。

研究人员介绍了数据库的生成AI

GensQL是一种用于数据库的生成AI系统,可以帮助用户做出预测,检测异常,猜测缺失值,修复错误或仅用几个键击子生成合成数据。

例如,如果该系统被用于分析始终患有高血压的患者的医疗数据,则可能会发现该特定患者的血压读数很低,但否则可能会在正常范围内。

GENSQL自动集成了表格数据集和生成概率的AI模型,该模型可以根据新数据来解释不确定性并调整其决策。

此外,GENSQL可用于生成和分析模仿数据库中真实数据的合成数据。在无法共享敏感数据的情况下,例如患者健康记录或实际数据稀疏时,这可能特别有用。

该新工具建立在SQL的顶部,SQL是一种用于数据库创建和操纵的编程语言,该语言于1970年代后期引入,并被全球数百万开发人员使用。

“从历史上看,SQL教会了一台计算机可以做什么。他们不必编写自定义程序,他们只需要以高级语言来询问数据库的问题。当我们从仅查询数据到询问模型和数据的问题时,我们将需要一个类似的语言,我们需要一种类似的语言,教会人们可以询问一个COORENT您可以说一个计算机5的人。 '09,博士学位'09,一篇论文的高级作者,介绍了Gensql,以及麻省理工学院大脑和认知科学系的概率计算项目的首席研究科学家和负责人。

当研究人员将GENSQL与流行的数据分析方法进行比较时,他们发现它不仅更快,而且还产生了更准确的结果。重要的是,GENSQL使用的概率模型是可以解释的,因此用户可以阅读和编辑它们。

查看数据并试图通过仅使用一些简单的统计规则来找到一些有意义的模式可能会错过重要的互动。您确实想捕获相关性和变量的相关性和依赖性,在一个模型中,这可能很复杂。与Gensql一起,我们希望启用大量用户的数据及其模型,而不必了解所有细节,而是脑部的详细信息。科学和概率计算项目的成员。

麻省理工学院研究生Matin Ghavami和Alexander Lew加入了纸上;研究科学家卡梅隆·弗里尔(Cameron Freer);数字车库的Ulrich Schaechtle和Zane Shelby;电气工程和计算机科学系的麻省理工学院教授,计算机科学与人工智能实验室(CSAIL)成员Martin Rinard;卡内基·梅隆大学(Carnegie Mellon University)的助理教授,16岁的Feras Saad '15,Meng '16,博士学位。该研究最近在ACM编程语言设计和实施会议上发表。

结合模型和数据库

代表结构化查询语言的SQL是一种编程语言,用于在数据库中存储和操纵信息。在SQL中,人们可以使用关键字来询问有关数据的问题,例如通过求和,过滤或分组数据库记录。

但是,查询模型可以提供更深入的见解,因为模型可以捕获数据对个人的意义。例如,一个女性开发人员想知道她的薪水是否不足,她对薪资数据对她的个人意义的兴趣比对数据库记录的趋势更感兴趣。

研究人员注意到,SQL没有提供合并概率AI模型的有效方法,但与此同时,使用概率模型来推断不支持复杂的数据库查询。

他们构建了GensQL来填补这一空白,使某人可以使用直接而强大的正式编程语言来查询数据集和概率模型。

GENSQL用户上传了系统自动集成的数据和概率模型。然后,她可以对数据进行查询,这些数据也可以从幕后运行的概率模型中获取输入。这不仅可以启用更复杂的查询,而且还可以提供更准确的答案。

例如,gensql中的查询可能是“西雅图的开发人员知道编程语言生锈的可能性?”仅查看数据库中的列之间的相关性可能会错过微妙的依赖性。结合概率模型可以捕获更复杂的相互作用。

另外,概率模型GenSQL使用的是可审核的,因此人们可以看到该模型用于决策的数据。此外,这些模型以及每个答案都提供了校准不确定性的度量。

例如,通过这种校准的不确定性,如果一个人向模型中的少数群体中的患者预测了不同癌症治疗的预测结果,而少数群体中的人数不足,那么Gensql会告诉用户不确定它是不确定的,而不是过分地提倡对错误的治疗进行过度建议。

更快,更准确的结果

为了评估GENSQL,研究人员将其系统与使用神经网络的流行基线方法进行了比较。 GENSQL的速度比这些方法快1.7到6.8倍,在几毫秒内执行大多数查询,同时提供更准确的结果。

他们还在两个案例研究中应用了GENSQL:一个系统确定了标记错误的临床试验数据,而另一个系统生成了捕获基因组学复杂关系的准确合成数据。

接下来,研究人员希望更广泛地应用GENSQL来进行人群的大规模建模。使用GENSQL,他们可以生成综合数据,以在控制分析中使用的信息时提出有关健康和工资等因素的推论。

他们还希望通过向系统添加新的优化和自动化来使GensQL更易于使用,并且更强大。从长远来看,研究人员希望使用户能够在GENSQL中进行自然语言查询。他们的目标是最终开发一个类似于Chatgpt的AI专家,可以与任何数据库讨论,该数据库使用GenSQL查询以其答案为基础。

这项研究部分由国防高级研究项目局(DARPA),Google和Siegel Family Foundation资助。

相关推荐
友情链接