机器学习的大数据隐私变得更便宜

莱斯大学(Rice University)的计算机科学家发现了一种廉价的方法,可以让科技公司在使用或共享用于机器学习的大型数据库时,实施严格的个人数据隐私保护。

通过玉博伊德 2021年11月28日
莱斯大学计算机科学家Ashumali Shrivastava(左)和研究生Ben Coleman发现了一种廉价的方法,可以在使用或共享用于机器学习的大型数据库时实现严格的个人数据隐私。由莱斯大学的Jeff Fitlow提供

莱斯大学(Rice University)的计算机科学家发现了一种廉价的方法,可以让科技公司在使用或共享用于机器学习(ML)的大型数据库时实施严格的个人数据隐私保护。

“在很多情况下,如果能确保数据隐私,机器学习可以造福社会,”他说Shrivastava Anshumali,副教授赖斯大学的计算机科学.“例如,如果我们可以训练机器学习系统在医疗或财务记录的大型数据库中搜索模式,那么改善医疗或发现歧视模式的潜力就很大。今天,这基本上是不可能的,因为数据隐私保护方法无法扩展。”

Shrivastava和Rice的研究生本·科尔曼希望通过一个新方法来改变这一点局部敏感哈希希尔瓦斯塔瓦和科尔曼发现,他们可以为一个庞大的敏感记录数据库创建一个小摘要。他们的方法被称为RACE,它的名字来自于这些总结“计数估计器的重复数组”草图

科尔曼说,RACE草图既可以安全地公开,也可以用于使用核和(机器学习的基本组成部分之一)的算法,以及执行分类、排序和回归分析等常见任务的机器学习程序。他说,RACE可以让公司既能从大规模、分布式机器学习中获益,又能维护一种严格的数据隐私形式,即差异隐私。差分隐私是基于添加随机噪声来模糊个人信息的思想。

科尔曼说:“现在有一些优雅而强大的技术可以满足不同的隐私标准,但没有一种是规模化的。”“随着数据维度的增加,计算开销和内存需求呈指数级增长。”

数据越来越高维,这意味着它既包含许多观测值,也包含每个观测值的许多单独特征。

RACE为高维数据绘制草图,他说。草图很小,构建它们的计算和内存需求也很容易分布。

Shrivastava说:“今天的工程师如果想使用内核求和,要么牺牲预算,要么牺牲用户的隐私。”RACE改变了以不同隐私发布高维信息的经济学。它简单、快速,而且比现有的方法便宜100倍。”

-编辑克里斯Vavra,网络内容经理,控制工程、CFE媒体与技术、cvavra@cfemedia.com


作者简介:Jade Boyd,莱斯大学。