摘要:研究人员设计了一种维持AI模型准确性的方法,同时确保攻击者无法提取用于训练它的敏感信息。该方法是在计算上有效的,可以减少准确性和隐私之间的长期权衡。...
数据隐私带有成本。有一些安全技术可以保护敏感用户数据(例如客户地址)免受可能试图从AI模型中提取它们的攻击者的攻击者 - 但它们通常会使这些模型的准确性降低。
麻省理工学院的研究人员最近根据一个名为PAC隐私的新隐私指标开发了一个框架,该框架可以在确保敏感数据(例如医疗图像或财务记录)的同时保持AI模型的性能,但仍可以保护攻击者。现在,他们通过使他们的技术在计算上更加有效,改善准确性和隐私之间的权衡,并创建一个正式模板,该模板几乎可以将任何算法私有化,而无需访问该算法的内部工作。
该团队利用其新版本的PAC隐私来将几种经典算法私有化,以进行数据分析和机器学习任务。
他们还证明,更多的“稳定”算法更容易使用其方法私有化。即使训练数据稍微修改,稳定算法的预测仍然保持一致。更大的稳定性有助于算法对先前看不见的数据做出更准确的预测。
研究人员说,新的PAC隐私框架的效率提高,并且可以遵循的四步模板可以实施它,这将使该技术更容易在现实世界中部署。
“我们倾向于将鲁棒性和隐私视为与建造高性能算法无关的,甚至可能与与之冲突的不相关。首先,我们制作了一种工作算法,然后我们使其变得牢固,然后私有。我们表明,这并不总是正确的框架。如果您使您的算法在各种设置中都能获得更好的范围。学生兼首席作者有关此隐私框架的论文。
Hanshen Xiao PhD '24加入了她的论文,后者将于秋天在普渡大学担任助理教授。 Edwin Sibley Webster电气工程教授Srini Devadas和高级作家Srini Devadas。该研究将在IEEE安全和隐私研讨会上介绍。
估计噪声
为了保护用于训练AI模型的敏感数据,工程师经常向模型添加噪音或通用随机性,因此对手猜测原始训练数据变得更加困难。这种噪声降低了模型的准确性,因此添加的噪音越少。
PAC隐私会自动估计一个人需要添加到算法以达到所需的隐私水平的噪声。
原始的PAC隐私算法在数据集的不同样本上多次运行用户的AI模型。它衡量了许多输出之间的差异和相关性,并使用此信息来估计需要添加多少噪声来保护数据。
PAC隐私的新变体以相同的方式起作用,但不需要表示输出之间的数据相关性的整个矩阵。它只需要输出差异。
Sridhar解释说:“因为您估计的东西比整个协方差矩阵要小得多,所以您可以做得更快。”这意味着可以扩展到更大的数据集。
添加噪声会损害结果的实用性,这对于最大程度地减少效用损失很重要。由于计算成本,原始的PAC隐私算法仅限于添加各向同性噪声,该噪声在各个方向都均匀添加。由于新变体估计针对培训数据的特定特征量身定制的各向异性噪声,因此用户可以添加更少的总体噪声以实现相同的隐私水平,从而提高了私有化算法的准确性。
隐私和稳定性
当她研究PAC隐私时,Sridhar理论上认为,使用此技术更稳定的算法更容易私有化。她使用PAC隐私的更有效的变体来测试几种经典算法的理论。
当训练数据略有变化时,更稳定的算法的输出差异较小。 PAC隐私将数据集分解为块,在每个数据块上运行算法,并测量输出之间的差异。差异越大,必须添加噪声越多才能使算法私有化。
她解释说,采用稳定技术减少算法输出中的差异也将减少需要添加的噪声量以私有化它。
她说:“在最好的情况下,我们可以得到这些双赢的情况。”
该团队表明,尽管测试了算法,但这些隐私保证仍然坚固,并且PAC隐私的新变体需要减少试验的命令以估算噪音。他们还测试了攻击模拟中的方法,表明其隐私保证可以承受最先进的攻击。
Devadas说:“我们想探索如何与PAC隐私共同设计算法,因此该算法从一开始就更加稳定,安全和健壮。”研究人员还希望通过更复杂的算法来测试他们的方法,并进一步探索隐私 - 实用性的权衡。
“现在的问题是,这些双赢的情况何时发生,我们如何使它们更频繁地发生?”斯里德哈尔说。