工程师使用人工智能进行更安全的现实学习

宾夕法尼亚州立大学的研究人员正在开发让人工智能(AI)和机器学习(ML)在现实世界中安全使用的方法。

通过玛丽菲尔兹 2023年1月4日
由Brett Sayles提供

宾夕法尼亚州立大学的研究人员正在寻找一种更安全、更有效的方式来使用人工智能(AI)和机器学习(ML)在现实世界中。他们利用模拟的高层办公楼,开发并测试了一种新的强化学习算法,旨在提高能源消耗和居住者在现实世界中的舒适度。

格雷格Pavlak宾夕法尼亚州立大学建筑工程助理教授,他在计算机械协会节能建筑环境系统国际会议上发表了他与人合著的论文《安全基于模型的强化学习的约束可微分交叉熵方法》的结果(BuildSys)会议于11月9日至10日在波士顿举行。

帕夫拉克说:“强化学习代理探索它们的环境,通过试错来学习最佳行动。”“由于在模拟现实世界的复杂性方面存在挑战,直接在现实世界中而不是在模拟中训练强化学习代理的趋势越来越大。”

然而,研究人员表示,在真实环境中部署强化学习也面临着挑战。

“现实世界强化学习的两个关键要求是有效的学习和安全考虑,”论文合著者Sam Mottahedi说,他在研究进行时是宾夕法尼亚州立大学建筑工程博士生。“一些强化学习系统需要数百万次的交互和多年的时间来学习最优策略,这在现实场景中是不现实的。此外,他们也有可能做出错误的决定,从而产生不受欢迎的结果或导致不安全的结果。”

这种担忧导致研究人员提出了一个问题:我们如何开发算法,使这些类型的强化学习代理能够在现实世界中安全地学习,而不会做出导致东西损坏或人员受伤的非常糟糕的决定?

研究人员使用现有的基于模型的强化学习方法来训练他们的模型做出决策。这个人工智能代理——控制算法——采用试错法与环境交互,对于他们的项目来说,环境是一栋建筑。

帕夫拉克说:“我们研究的安全关键因素是,至少不要破坏建筑物中的任何东西,并确保居住者总是舒适。”“虽然我们不必担心有人被车撞,这是自动驾驶汽车中强化学习的一个问题,但我们确实必须担心建造设备的操作限制。”

研究人员希望在不影响热舒适的情况下最大限度地减少能源使用,热舒适的范围从-3(太冷)到+3(太热)。如果控制算法完成了一个动作,导致舒适度在-0.5/+0.5范围之外,它将被惩罚。控制算法能够保持-0.5/+0.5,这在建筑行业是可接受的标准。

帕夫拉克说:“例如,如果控制器被设置为寻找最佳能源消耗,它就会因为实现这种良好行为而得到奖励。”“或者,如果它做了一些增加能源消耗的事情,它将因不良行为而受到惩罚。这种试错法通过收集信息来加强学习,这样控制器就可以决定下一步该做什么。”

在这个项目中,研究人员模拟了芝加哥气候区的一座大型办公楼。在真正的30层建筑中,设备问题可能包括任何带有大型电机的设备,例如用于冷却建筑物的冷却器。

“大型马达不喜欢快速移动,”帕夫拉克说。“例如,一个大型冷水机可能每天开一次,每天关一次——总共两次——以避免损坏设备。如果我们的特工的行为在一天内导致两次以上的寒冷事件,他将受到惩罚。”

研究人员将他们的基于模型的方法与其他常用的强化学习方法进行了比较,包括使用无模型算法。基于模型的代理可以计划它的行动,因为它能够预测它的奖励。无模型代理实际上需要执行动作才能从中学习。

“无模型算法往往工作得很好,但违反了一些安全限制,”帕夫拉克说。“学会良好的行为也需要更多的时间,有时需要几年或几十年。”

研究人员的模型比传统的无模型方法学习速度快50倍,在一个月内完成其他方法需要数年才能完成的工作。由于研究人员纳入安全因素的方式,他们的模型对安全关键方面的违反较少——有时为零。

根据帕夫拉克的说法,增加安全约束使强化学习成为平衡权衡的游戏。通过完全关闭电源,增强剂可以最大限度地提高能耗,这是一种良好的行为。然而,这样做会对乘员的舒适性产生负面影响,这是不良行为。

展望未来,研究人员希望继续研究学习速度和减少整体学习时间。

帕夫拉克说:“当一个控制器从头开始时,它必须学习一切。“但一旦你训练了一个建筑的控制器,你就可以在类似的建筑上进行试验,或者在下一个项目中重复使用它的部分内容。不从头开始可能会让你学得更快。”

-由Chris Vavra编辑,网页内容经理,控制工程, CFE媒体与技术,cvavra@cfemedia.com


作者简介:作者,宾夕法尼亚州立大学