大数据分析还是数据获取?

集中式数据架构正在适应数据收集和分析的新机会。

由Michael Risse. 2019年3月5日

与数据和高级分析的讨论的起点需要从Moore的法律开始。1965年，英特尔联合创始人Gordon Moore注意到，每年的芯片上的晶体管数量加倍，而价格将减少成分。他预测这一趋势将继续。虽然最近每个芯片的晶体管数量放缓，但研究人员发现基本点仍然是真的。

数据存储价格已经暴跌，价格崩溃，电脑是他们过去的尺寸的一小部分。是的，可以在相同尺寸和价格芯片上计算的内容多次。

我们每天都能读到市场转型的结果:数据爆炸;无处不在的感知和连接;拥有500亿个终端的物联网(IoT);以及今天的智能手机在计算、存储和输入/输出(I/O)方面的能力，不仅超过了早期的大型机，甚至超过了深蓝(1997/IBM)。这甚至适用于埃克森美孚这样的公司，该公司向洛克希德马丁公司投资了20亿美元，以推动过程自动化的开放系统架构。对于一些公司来说，摩尔定律的价格优势在制造业的前线已经出现太久了。

这种无处不在和廉价的计算的结果是过程制造商有机会通过实施曾经考虑的昂贵的选项来重新想象其数据分析策略。用于集中分析的数据，因为收集，存储和分析昂贵。

普遍存在的昂贵的计算将继续。无论您如何称之为IT Industrie 4.0，智能制造，数字转换 - 问题与所收集的数据有关。

新型号的新词

新的经济学和无处不在的计算意味着普渡模型的集中化方法(图1)正在适应新的机遇。集中式模型是全球流程工厂中最常见的体系结构，也是用户所熟悉的。

普渡模式正在进行更新，以利用新技术，如:

无线系统将新传感器集成到现有的控制和监控部署中，无论是在工厂还是在距离内，都可扩展操作性能。
边缘计算，这是一个广泛的术语，包括本地数据存储、分析和操作。
云计算，它只是从供应商那里租用计算、存储和分析。这将启用两个关键场景:
- 首先，一种“直接到云”的方法，用于传感器遥测技术的数据收集、存储和分析。这通常被称为工业物联网(IIoT)用例，其中数据直接从端点到云存储。
- 其次，对于已经收集的数据进一步聚合以进一步聚合，以便通过使用企业历史学家进行比较，或者与其他制造和业务数据集结合以实现更广泛的分析，通常被称为数据湖泊。

这些方法不是唯一的，大多数公司会使用不止一种方法，如果不是全部的话。例如，一个工厂可以引入来自新部署的无线传感器的数据，以增强现有的工厂分析。这些数据可以与来自供应商的数据、来自原材料运输(如温度和湿度)的数据以及来自质量仪器的数据相结合，以实现更丰富的分析和见解。

此外，随着新的解决方案的公布，选择将会扩大。我们应该把Amazon AWS和Microsoft Azure的本地产品、Amazon Outposts(图2)和Azure Stack归入哪一类呢?它们把自己的云软件平台放在终端用户IT部门用于本地托管的服务器硬件上。可能是公共云、私有云和本地云?

在本地云物联网场景下，数据可以从新的传感器直接路由到公司的IT部门服务器室，以确保严格的数据治理和解决安全问题。

这些选项中的一些人对行业内部人士熟悉。例如，专注于边缘计算的供应商将很难解释，以解释边缘计算组件如何与实时单位（RTU）不同。同样，云供应商推动数据湖泊可能很难解释为什么他们的方法与卷起各个工厂数据的企业历史学家基本不同。

可能很难区分出供应商的自身利益在起作用。因此，销售所需的网络、cpu和操作系统的厂商正在支持一种完全去中心化和网络化的计算端点体系结构，这并非偶然。

规划泛滥

技术产品显然比用于解释它们的语言更快。整个植物有时被认为是新的边缘。另一个问题是实施创新和时间的不匹配。产品和营销可以在一夜之间发明。这比成功部署的证明点和最佳实践更快。

灵活性是通过降低成本和改进的地点以及如何部署传感器，数据收集，存储和分析的连接。对可能的架构和权衡的全面看法远远超出了任何文章的范围，因为当某人发表了一份汇编时，新作物的创新和流行语会涌现。通过这些局限性，这里有四个关于无处不在的计算对植物架构对数据创建，收集，存储和分析的影响的考虑因素。

1.公司的起点是什么？

对于新的传感器部署，收集的数据驻留在云中，即使云实际上是本地数据中心的硬件。当然，这更适合用于监视/可见性，因为体系结构除了满足大量的数据安全需求外，还必须支持通信中断。微软(Microsoft)、亚马逊(Amazon)、谷歌和100多家初创公司，包括特定行业的无线公司，提供了一整套“前沿洞察力”软件。这种方法提供了快速部署和新的云服务收入。

替代方案是布朗菲尔德植物，重心是，并将继续在前提下。低延迟，保证网络以及本地访问数据都是此模型的关键，并且这些解决方案就到位并工作。棕色地区工厂的更有可能的情景是通过本地无线解决方案的数据集合扩展，或者通过邻近基于云的系统，其中数据与其工厂系统集成。在数据土地的情况下使用此模型灵活，在前提或云中。

2.公司的资产是否有邻居？

在边缘计算模型中，前提是可以对任何资产进行单独分析和诊断，以预测故障、优化运行时性能等。如果资产是独立运作的，这是有意义的。这实际上为高价值资产创建了一个更智能的RTU模型。

但是，如果资产与流程单位或一系列机器的邻居，那么通常情况，如果应该发生数据收集和分析，那么它就不是那么明显。可能发生的是邻近资产最终争取优化状态。需要什么是整个过程单元或制造线的优化。

答案正在将数据从线路的多个资产聚合，除非它是更大单位的一部分。除了在真正独立的资产方案中，将需要仔细规划数据，存储和分析以进行优化以进行优化。

即使在当时，考虑到价格、能源和其他在工厂无法得到的投入，这可能意味着最好的结果是在系统开始的地方，有一个集中的数据收集和分析模型。

3.谁拥有数据？

通过新的计算架构，问题不仅是在哪里数据应该被存储吗谁．越来越多的资产供应商为他们出售的资产提供远程监控服务。
这导致了一些关于数据治理的问题，如:

谁拥有生成的数据？
数据是否被复制两次(给监控供应商和工厂所有者)?
资产数据移动（安全，无线，云）等如何以及到哪里。
洞察力如何带回并融入客户的运营改进系统中？

4.谁有这方面的专长?

超出实时控制和监控所需的数据输入通常需要优化资产，线路或工厂性能。例子是员工的加班费，备件的额定订单成本以及对客户的承诺。

这些因素进入生产优化，也是为什么工厂工程师和专家有如此令人鼓舞的就业前景。创建资产、工厂和绩效环境在很大程度上仍然取决于员工的经验和专业知识。这将需要高级分析产品来访问、可视化和上下文化数据，以创建见解(图3)。

这意味着员工的访问权限，无论是移动还是基于Web，都是关键的，无论边缘或云数据收集周围的决定如何。植物或总部的员工仍应集中分析数据。这会对数据治理进行决定影响数据治理，以便看到与收集数据的数据一样多。

一些规则仍然适用

从创新和机遇开始，更容易从事倒到现实。实际上，创新计划从安全，可管理性和其他业务优先级开始，并从那里倒退。安全主导讨论;特别是随着数据收集和分析分布。此外，虽然边缘或本地设备声音更安全，但系统的复杂性提高增加了他们的威胁曝光。这些组件对设备运营的责任越多，它们就像潜在目标就越有价值。

可靠性是继安全性之后的第二个问题。数据连接和带宽尤其重要。计划必须包括讨论当网络无法到达边缘或云时，数据会如何处理。

新的架构考虑因素会如何以及在收集和分析数据的影响。与投资回报（ROI）相关的信息技术（IT），生产和业务结果将必须平衡。

数据的新方法

通过较低的价格推进计算的普遍计算是为植物数据架构推动新的方法。实际上，这会展开计算和分析，并防止一切都在一个地方。期望应用于更广泛数据集的大数据和机器学习分析是这种信念的关键驱动因素。

创新的速度超过了消费者的接受速度。首先是大数据，然后是工业4.0等等。现在，在这个过程的每一个点上都有新的计算创新模型。平衡现有的可能与提高性能的要求是未来创新的挑战。

迈克尔RisseSeeq Corp.首席营销官(CMO)兼副总裁。www.seeq.com由Chris Vavra编辑，生产编辑，控制工程，CFE媒体，cvavra@cfemedia.com．