系统修复:6步找到根本原因

自动化系统最终需要维修。在进行故障排除以查找根本原因时,遵循常规程序可能会有很大帮助。

通过埃德•米勒 2018年12月16日

每个自动化系统最终都会发展到需要高级工程支持的情况。这种类型的“故障修复支持”可能是由于各种原因造成的——断电、服务器维护、操作员错误等等。但无论根本问题是什么,迟早每个系统都会需要它。这就是为什么同样可以肯定的是,系统集成商在某些时候会发现自己在帮助支持客户,并保持他们的制造流程运行。

故障诊断是一套独特而特殊的技能,每个人解决问题的方法可能略有不同。当我发现自己处于无法修复的情况下,我倾向于遵循常规程序,不仅试图解决问题,还试图确定问题的根本原因:

第一步:问问题

我总是从与报告问题的人讨论问题的症状开始。想想看,如果你不知道问题是什么,你怎么能解决问题呢?在支持过程的第一阶段提出正确的问题对于成功解决问题至关重要。

第二步:自己重复问题

有时候,你在第一步收集到的信息可能并不能完全描绘出情况的全貌。当我试图复制这个问题时,我经常会深入了解用户实际报告的内容。

步骤3:检查日志文件

一个构建良好的系统将提供证据,说明在某些事情无法正常工作时发生了什么。如果幸运的话,错误消息将提供理解实际问题的上下文。即使系统没有生成任何错误消息,系统日志通常也可以提供关于脚本或数据库事务中的幕后问题的详细信息。分析这些信息通常可以揭示当前的问题。

第四步:向后追溯

我从系统中报告问题的点开始往回追溯。例如,让我们假设用户在特定的应用程序屏幕上遇到了问题。我解决这个问题的方法是从深入到屏幕上不能工作的特定元素开始的——例如,一个按钮。

我深入了解按钮背后的代码/功能,看看它是如何工作的。也许按钮触发了一个脚本来查询数据库中的数据,但是该数据没有显示在屏幕上。跟踪这些单独的元素/功能通常可以帮助我了解故障发生在流程的哪个位置。

步骤5:重启/重新部署系统

通常,在制造系统中重启服务器而不关闭其他仍在运行的部件是不可能的。然而,当某个底层方面不同步时,“关闭再打开”经常会修复系统,这让我感到惊讶。

步骤6:记录发现

为客户的利益和为支持团队提供见解,记录问题始终是一个很好的实践。文档在支持情况下的主要好处之一是在相同的情况再次发生时提供一些指导。如果没有必要的话,您不会希望花费宝贵的时间试图重新分析一个问题。

埃德•米勒项目工程师在哪里Avanceon

原始内容可以在设备工程


作者简介:Avanceon项目工程师