旨在提高医疗保健、物联网数据库性能的系统

普渡大学的科学家开发了一个名为SOPHIA的系统,旨在帮助用户重新配置数据库,用于从宏基因组学到高性能计算(HPC)到物联网等各种应用。

通过克里斯·亚当 2020年5月14日

一组计算机科学家来自普渡大学创建了一个名为SOPHIA的系统,旨在帮助用户在时变工作负载下重新配置数据库以获得最佳性能,并适用于从宏基因组学到高性能计算(HPC)到物联网(IoT)的各种应用程序,在这些应用程序中,高通量、弹性数据库至关重要。

使用数据库的最大挑战之一(无论是用于医疗保健、物联网还是其他数据密集型应用程序)是,更高的速度以更高的运营成本为代价,导致数据中心为高数据可用性和数据库性能而过度配置。

对于更高的数据量,数据库可能会排队工作负载,例如读写,并且不能产生稳定和可预测的性能,这可能是智能城市或军事中的关键自治系统的一个交易破坏因素。

“当涉及到数据库时,你必须三思而后行,”普渡大学农业和生物工程助理教授索索马里·查特吉(索马里·查特吉)说,他是细胞和神经机器创新项目(ICAN)的负责人,并领导了这篇论文。“您不希望成为一个不断更改数据库配置参数naïvely的系统管理员,该参数空间包含超过50个性能敏感且经常相互依赖的参数,因为重新配置步骤会带来性能成本。这就是SOPHIA的成本效益分析器发挥作用的地方,因为只有当收益超过重新配置的成本时,它才会执行noSQL数据库的重新配置。”

普渡大学的SOPHIA系统有三个组成部分:一个工作量预测器,一个成本效益分析器和一个分散的重新配置协议,它可以意识到组织的数据可用性需求。

普渡大学电气和计算机工程教授Saurabh Bagchi表示:“我们的三个组件一起工作,以了解数据库的工作负载,然后执行成本效益分析,以在面对频繁变化的动态工作负载时实现最佳性能。计算机科学(礼貌)。最后一个组件利用所有这些信息来确定重新配置数据库参数的最佳时间,以获得最大的成功。”

普渡大学团队使用Cassandra和Redis这两个著名的noSQL数据库对该技术进行了基准测试,这是一类主要的数据库,广泛用于支持社交网络和流媒体音视频内容等应用领域。

Chaterji说:“Redis是一种特殊的noSQL数据库,因为它是一种内存中的键值数据结构存储,尽管为了持久性使用了硬盘持久性。”“因此,有了Redis, SOPHIA可以作为一种方式来恢复Redis已弃用的虚拟内存功能,这将允许数据量大于机器的RAM。”

该项目的首席开发人员是计算机科学博士生Ashraf Mahgoub。今年夏天,他将回到微软研究院实习,当他今年秋天回来时,他将继续为云托管数据库研究更多的优化技术。

普渡大学团队的测试表明,与默认和静态优化的数据库配置相比,SOPHIA都获得了显著的优势。即使在预测准确的工作特征有很大的不确定性时,这种好处仍然存在。

这项工作还表明,Cassandra可以优先于最近流行的自动调优数据库ScyllaDB,它在整个工作负载类型范围内具有更高的吞吐量,只要动态调优器(如SOPHIA)覆盖在Cassandra之上。

SOPHIA使用MG-RAST进行测试,MG-RAST是微生物组数据的宏基因组学平台;高性能计算工作负载;以及数字农业和自动驾驶汽车的物联网工作负载。


作者简介:克里斯·亚当,普渡大学