网站地图 | Tags | 热门标准 | 最新标准 | 订阅
您当前的位置:首页 > 行业标准 > 团体标准

T/CPUMT 022-2024 工业互联网平台 工业大数据通用技术要求

  • 文件大小:1.33 MB
  • 标准类型:综合团体标准
  • 标准语言:中文版
  • 文件类型:PDF文档
  • 更新时间:2025-03-07
  • 下载次数
  • 标签

资料介绍

ICS 35.240.50
CCS L 77
团体标准
T/CPUMT 022—2024
工业互联网平台 工业大数据通用技术要求
Industrial Internet Platform —General technical requirements for industrial big data
2024 - 10 - 21发布2024 - 10 - 21实施
中国和平利用军工技术协会 发布

目次
前言 ................................................................................ III
引言 ................................................................................. IV
1 范围 ............................................................................... 6
2 规范性引用文件 ..................................................................... 6
3 术语和定义 ......................................................................... 6
4 缩略语 ............................................................................. 8
5 工业大数据平台总体架构 ............................................................. 9
6 数据采集技术要求 ................................................................... 9
6.1 概述 ........................................................................... 9
6.2 功能性 ......................................................................... 9
6.3 性能效率 ...................................................................... 10
6.4 可靠性 ........................................................................ 10
6.5 易用性 ........................................................................ 10
6.6 扩展性 ........................................................................ 10
6.7 兼容性 ........................................................................ 10
7 数据存储技术要求 .................................................................. 10
7.1 概述 .......................................................................... 10
7.2 功能性 ........................................................................ 10
7.3 性能效率 ...................................................................... 11
7.4 可靠性 ........................................................................ 11
7.5 易用性 ........................................................................ 11
7.6 维护性 ........................................................................ 12
7.7 可扩展性 ...................................................................... 12
7.8 兼容性 ........................................................................ 12
8 数据处理技术要求 .................................................................. 12
8.1 概述 .......................................................................... 12
8.2 实时流式计算 .................................................................. 12
8.3 大数据批处理 .................................................................. 14
8.4 宽表数据库要求 ................................................................ 16
9 数据分析技术要求 .................................................................. 17
9.1 概述 .......................................................................... 17
9.2 交互式分析 .................................................................... 17
9.3 图分析 ........................................................................ 18
9.4 数据搜索 ...................................................................... 20
9.5 AI模型 ........................................................................ 21
10 数据应用技术要求 ................................................................. 22
T/CPUMT 022-2024
II
10.1 概述 ......................................................................... 22
10.2 功能性 ....................................................................... 22
10.3 性能效率 ..................................................................... 22
10.4 可靠性 ....................................................................... 22
10.5 易用性 ....................................................................... 22
10.6 兼容性 ....................................................................... 22
11 平台运维技术要求 ................................................................. 23
11.1 概述 ......................................................................... 23
11.2 监控告警 ..................................................................... 23
11.3 健康检查 ..................................................................... 23
11.4 日志管理 ..................................................................... 24
12 数据安全技术要求 ................................................................. 25
12.1 概述 ......................................................................... 25
12.2 数据采集安全性 ............................................................... 25
12.3 分布式存储安全性 ............................................................. 25
12.4 实时流式计算安全性 ........................................................... 25
12.5 大数据批处理安全性 ........................................................... 25
12.6 宽表数据库安全性 ............................................................. 25
12.7 交互式分析安全性 ............................................................. 26
12.8 图分析安全性 ................................................................. 26
12.9 数据搜索安全性 ............................................................... 26
12.10 AI模型安全性 ................................................................ 26
12.11 数据应用安全性 .............................................................. 26
12.12 监控告警安全性 .............................................................. 27
12.13 健康检查安全性 .............................................................. 27
12.14 日志管理安全性 .............................................................. 27
参考文献 ............................................................................. 28
T/CPUMT 022-2024
III
前言
本文件按照GB/T 1.1—2020《标准化工作导则 第1部分:标准化文件的结构和起草规则》的规定起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
T/CPUMT 022《工业互联网平台 工业大数据通用技术要求》与T/CPUMT 020《工业互联网平台 总体技术要求》、T/CPUMT 021《工业互联网平台 边缘层通用技术要求》、T/CPUMT 023《工业互联网平台 工业模型及其组件研发与服务通用技术要求》、T/CPUMT024《工业互联网平台 工业APP开发与服务技术要求》、T/CPUMT 025《工业互联网平台 服务通用要求》、T/CPUMT 026《工业互联网平台 开发及运行环境通用技术要求》共同构成工业互联网平台的研发、建设及部署的基本型标准体系。
本文件由中国和平利用军工技术协会提出并归口。
本文件起草单位:启明信息技术股份有限公司、中国软件评测中心(工业和信息化部软件与集成电路促进中心)、中海油信息科技有限公司(惠州)工业互联网技术中心、中核武汉核电运行技术股份有限公司、东方电气集团科学技术研究院有限公司、中国航空工业集团公司西安飞行自动控制研究所、中移(杭州)信息技术有限公司、清云智通(北京)科技有限公司、西安麦格斯会展服务有限公司、北京零重宇航技术有限公司、北京轩宇信息技术有限公司、成川科技(苏州)有限公司、嵩嘉标准化技术服务(北京)有限公司、蓝象标准(北京)科技有限公司。
本文件主要起草人:曾宪宇、李安伦、汪谷银、程敏敏、李阳、祁小苑、吴晗、张志强、闫松、李文娟、张澍裕、何伟、王明明、马悦、刘宁、孟欣、王健、裴衡、金永承、段小莉、张德保、闫婷、姜冰、张红艳、徐成利、王致远、马志强、邱天、王新亮、乔华阳。
本文件为首次发布。
T/CPUMT 022-2024
IV
引言
工业互联网是新一代信息通信技术与工业经济深度融合的新型基础设施、应用模式和工业生态,通过对人、机、物、系统等全面连接,构建起覆盖全要素、全产业链、全价值链的全新制造和服务体系,为工业乃至产业数字化、网络化、智能化发展提供了实现途径。工业互联网整体体系包括网络、平台、安全三大功能体系,工业互联网体系框架见图1。工业互联网全面打通设备资产、生产系统、管理系统和供应链条,基于数据整合与分析实现信息技术(IT)与运营技术(OT)的融合和三大功能体系的贯通。其中,“网络” 是工业系统互联和工业数据交换传输的支撑基础,其体系包括网络互联、标识解析和数据互通3部分, 实现信息数据在工业互联网内无缝传递。“平台”分为边缘层、PaaS层和应用层,其模块包括数据采集交换、处理分析、决策优化和反馈控制等,形成数据驱动的智能实现机器设备、系统运营和商业行为的智能优化。“安全”是网络与数据在工业应用的安全保障, 包括隐私与数据保护、保密性、完整性、可用性和可靠性,实现对工业互联网系统的全面安全保护。“物理资产”指的是实际存在的、参与工业生产、传输、存储等过程的各类设备和设施。这些物理资产构成了工业互联网体系的基础设施和核心要素,是工业互联网实现数字化、网络化、智能化转型的基础,包括生产设备、传感器和执行器、基础设施设备、辅助设备等。

1 工业互联网体系框架
工业互联网平台作为工业全要素链接的枢纽与工业资源配置的核心,在工业互联网体系架构中具有至关重要的地位。工业互联网平台通过构建精准实时、高效的数据采集互联体系,建立面向工业大数据存储、集成、访问、分析管理的开发环境,实现工业技术、经验、知识的模型化、标准化、软件化、复用化,不断优化研发设计、生产制造、运营管理等资源配置效率。为了促进工业互联网基础共性平台、关键技术、典型应用的合理、高效、合理发展,有必要提出工业互联网平台的相关规范,以形成资源富集、多方参与、合作共赢、协同演进的制造业新生态。
本文件是《工业互联网平台》系列标准之一,本系列文件结构如下:
——T/CPUMT 020 工业互联网平台 总体技术要求
——T/CPUMT 021 工业互联网平台 边缘层通用技术要求
——T/CPUMT 022 工业互联网平台 工业大数据通用技术要求
——T/CPUMT 023 工业互联网平台 工业模型及其组件研发与服务通用技术要求
——T/CPUMT 024 工业互联网平台 工业APP开发与服务技术要求
——T/CPUMT 025 工业互联网平台 服务通用要求
——T/CPUMT 026 工业互联网平台 开发及运行环境通用技术要求
工业大数据是工业互联网平台的核心组成部分,通过收集、存储、分析和利用来自生产线、供应链、市场等不同环节的海量数据,为工业企业提供深度洞察和决策支持。通过先进的数据分析技术,如机器
T/CPUMT 022-2024
V
学习、人工智能等,可以预测设备故障、优化生产流程、提高产品质量和降低成本。此外,工业大数据还能促进供应链的协同,通过实时数据共享,实现资源的最优配置,增强供应链的灵活性和响应速度。工业大数据是实现智能制造、提升工业竞争力的关键技术基础。
本文件规定了工业互联网平台中工业大数据的数据采集技术、数据存储技术、数据处理技术、数据分析技术、数据应用技术,以及平台运维技术和数据安全技术等方面的要求,旨在为工业互联网平台提供者的工业大数据服务能力建设、第三方机构对工业互联网平台提供者的工业大数据服务能力进行评估等活动提供指导。
T/CPUMT 022-2024
6
工业互联网平台 工业大数据通用技术要求
1 范围
本文件给出了工业互联网平台中工业大数据平台总体架构,规定了工业大数据平台的数据采集、数据存储、数据处理、数据分析、数据应用,以及平台运维和数据安全等方面的技术要求。
本文件适用于指导工业互联网平台提供者的工业大数据服务能力建设,也适用于第三方机构对工业互联网平台提供者的工业大数据服务能力进行评估。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T 25069 信息安全技术 术语
GB/T 35295 信息技术 大数据 术语
GB/T 41778 信息技术 工业大数据 术语
T/CPUMT 020 工业互联网平台 总体技术要求
3 术语和定义
GB/T 25069、GB/T 35295、GB/T 41778、T/CPUMT 020界定的以及下列术语和定义适用于本文件。
3.1
工业大数据 industrial big data
在工业活动过程中产生的具有体量巨大、来源多样、生成极快、多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。
注:
一般分成三类,即企业信息化数据、工业物联网数据,以及外部跨界数据。其中,企业信息化和工业物联网中机器产生的海量时间序列数据是工业数据规模变大的主要来源。
[来源:GB/T 41778—2022,3.21]
3.2
数据服务 data service
提供数据采集、数据传输、数据存储、数据处理(包括计算、分析、可视化等)、数据交换、数据销毁等数据生存形态演变的一种网络信息服务。
[来源:GB/T 41778—2022,3.8]
3.3
批处理 batch processing
将一个大型作业分解成为多个任务交由多个节点分别处理,再将分解后多个任务处理的结果汇总起来,得出最终的分析结果的计算框架,具备高可用、高扩展、高并发等能力。
[来源:GB/T 41778—2022,3.1]
3.4
实时计算 real-time computing
在规定时间内对数据进行处理及运算的操作。
注:
在工业场景下的实时计算时间要求一般为秒级及以下,且主要包括数据的实时采集与存储、数据的实时处理与分析等两部分。
[来源:GB/T 41778—2022,3.43]
T/CPUMT 022-2024
7
3.5
流式计算 stream computing
能够对流式数据进行实时处理的计算方式。
注:
工业大数据相关的流式计算通常应用于工业生产活动中的实时监控、实时预警等场景。
[来源:GB/T 41778—2022,3.48]
3.6
数据 data
信息的可再解释的形式化表示,以适用于通信、解释或处理。
注:
可以通过人工或自动手段处理数据。
[来源:GB/T 41778—2022,3.4]
3.7
结构化数据 structured data
一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。
[来源:GB/T 41778—2022,3.50]
3.8
半结构化数据 semi-structured data
不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层的一种数据化结构形式。
[来源:GB/T 38637.2—2020,3.5]
3.9
非结构化数据 unstructured data
不具有预定义模型或未以预定义方式组织的数据。
[来源:GB/T 41778—2022,3.54]
3.10
垂直扩展 vertical scaling
为提高性能而提高处理速度、存储和内存等系统参数的过程。
[来源:GB/T 35295—2017,2.1.16]
3.11
水平扩展 horizontal scaling
将集成的一群个体资源作为一个单系统使用的过程。
[来源:GB/T 35295—2017,2.1.17]
3.12
分布式文件系统 distributed file system
多个结构化数据集分布在一个或多个服务器集群的各个计算节点的文件系统。
注:
此类系统中,数据可能分布在文件和/或数据集层,更为普遍的是在数据块这个层级分布,同时支持集群中多个节点与大型文件和/或数据集的不同部分交互。
[来源:GB/T 35295—2017,2.1.21]
3.13
分布式计算 distributed computing
一种覆盖存储层和处理层的、用于实现多类型程序设计算法模型的计算模式。
注:
分布式计算结果通常加载到分析环境。MapReduce是数据分布式计算中默认的处理构件。
[来源:GB/T 35295—2017,2.1.22]
3.14
集群管理 cluster management
在以非关系模型方式驻留数据的集群资源之间提供通信的一种机制。
[来源:GB/T 35295—2017,2.1.59]
T/CPUMT 022-2024
8
3.15
元数据 metadata
关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。
[来源:GB/T 35295—2017,2.2.7]
3.16
数据挖掘 data mining
从大量的数据中通过算法搜索隐藏于其中信息的过程。
注:
一般通过包括统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等方法来实现。
[来源:GB/T 35295—2017,2.2.9]
3.17
冷数据 cold data
访问频率较低的数据,通常存储在成本较低的存储介质上,如磁带、光盘等。
3.18
热数据 heat data
访问频率较高的数据,通常存储在高速磁盘上,如SSD。
3.19
温数据 warm data
介于冷数据和热数据之间的数据,访问频率适中,通常存储在性价比相对较高的磁盘上。
3.20
宽表 wide table
字段比较多的数据库表,通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。
4 缩略语
下列缩略语适用于本文件。
AI:人工智能(Artificial Intelligence)
API:应用程序编程接口(Application Program Interface)
Avro:数据序列化系统(Apache Avro™)
CPU:中央处理器(Central Processing Unit)
CSV:逗号分隔值(Comma-Separated Values)
DDL:数据库模式定义语言(Data Definition Language)
DML:数据操纵语言(Data Manipulation Language)
HTTP:超文本传输协议(Hypertext Transfer Protocol)
IP:网际互连协议(Internet Protocol)
JDBC:Java数据库连接(Java Database Connectivity)
JSON:JS对象表示法(JavaScript Object Notation)
JWT:RFC7519标准定义的一种可以安全传输的JSON对象(JSON Web Tokens)
MFA:多重身份验证(Multifactor Authentication)
oAuth:互联网上的一款安全协议(Open Authorization)
ODBC:开放数据库连接(Open Database Connectivity)
OIDC:基于OAuth 2.0的身份认证授权协议(OpenID Connect)
OTP:一次性密码(One Time Password)
RPC:远程过程调用(Remote Procedure Call)
RPO:恢复点目标(Recovery Point Object)
SDK:软件开发工具包(Software Development Kit)
SQL:结构化查询语言(Structured Query Language)
SSL:安全套接层(Secure Socket Layer)
T/CPUMT 022-2024
9
TLS:传输层安全协议(Transport Layer Security)
TPC-DS:交易处理性能委员会的评估决策支持系统的基准测试(Transaction Processing Performance Council - Decision Support))
TTL:生存时间值(Time To Live)
TXT:文本文档(Text)
UDF:用户自定义函数(User-Defined Function)
Web:全球广域网(World Wide Web)
XML:可扩展标记语言(Extensible Markup Language)
5 工业大数据平台总体架构
工业互联网平台中工业大数据平台主要包含数据采集、数据存储、数据处理、数据分析、数据应用、平台运维、数据安全7个方面的内容,总体架构见图2。

2 工业大数据平台总体架构
6 数据采集技术要求
6.1 概述
工业大数据平台的数据采集技术要求包括功能性、性能效率、可靠性、易用性、可扩展性、兼容性等方面。
6.2 功能性
数据采集功能性应符合下列要求:
a)
支持数据采集的新增、删除和编辑;
b)
支持时序数据、结构化数据、半结构化数据、非结构化数据的接入;
c)
支持文件采集黑白名单;
d)
具备文件路径或名称自适应能力;
e)
支持数据的实时采集和批量采集;
f)
支持断点续传;
g)
支持自动生成目标表DDL;
h)
支持常见数据库作为源及目标端;
i)
支持自定义采集列及自定义筛选条件;
T/CPUMT 022-2024
10
j)
支持增量采集及全量采集。
6.3 性能效率
当工业大数据平台对数据采集性能效率存在相关指标时,符合下列要求:
a)
常见数据库采集速率应大于每秒10000条;
b)
实时采集速率应大于每秒1000条;
c)
数据实时采集延迟应小于1秒;
d)
数据采集并发连接数宜大于10000个;
e)
批量采集每小时宜大于1TB;
f)
在高负载情况下,CPU利用率可保持在70%-80%之间,避免过高负载导致性能瓶颈;
g)
在高负载情况下,内存利用率可保持在60%-70%之间,确保有足够的内存应对突发负载。
6.4 可靠性
数据采集可靠性符合下列要求:
a)
应支持系统稳定运行;
b)
数据采集过程中数据丢失率宜低于0.01%;
c)
数据采集过程中数据准确率宜达到99.999%;
d)
支持强制关机、断电、重启后,系统可快速恢复,故障恢复时间宜小于5分钟。
6.5 易用性
数据采集易用性符合下列要求:
a)
应提供友好、直观的用户界面,使用户能轻松配置和管理数据采集任务;
b)
应支持拖放操作来创建和配置数据采集工作流,简化复杂操作;
c)
宜具备配置向导,引导用户逐步完成数据源配置、数据采集规则设定等步骤;
d)
宜具备常见数据源的预设模板,用户可快速选择和应用,减少手动配置的工作量;
e)
可支持按时间间隔、特定时间点、事件驱动等多种调度策略,满足不同数据采集需求。
6.6 扩展性
数据采集可扩展性应符合下列要求:
a)
支持通过添加新的采集节点来增加整体的处理能力,扩展后性能应线性增加;
b)
支持自定义数据源,自定义数据格式解析的插件化机制;
c)
支持扩容、缩容不中断;
d)
支持增加或减少节点过程服务不中断。
6.7 兼容性
数据采集兼容性应符合下列要求:
a)
软件兼容:支持主流国产操作系统和数据库;
b)
硬件兼容:支持主流国产服务器。
7 数据存储技术要求
7.1 概述
数据存储能力在工业大数据平台主要是分布式存储能力,其技术要求包括功能性、性能效率、可靠性、易用性、维护性、可扩展性、兼容性等要求。
7.2 功能性
分布式存储功能性符合下列要求:
a)
应支持时序、结构化、半结构化、非结构化数据类型的存储和读取;
T/CPUMT 022-2024
11
b)
应支持数据生命周期配置,通过指定生效时间、设置对象保留时间及过滤条件等规则,实现数据的定时自动删除;
c)
应支持在不同地域的存储空间之间自动、异步复制文件,将源存储空间中文件的改动(新建、覆盖、删除操作)同步到目标存储空间中;
d)
应支持热数据、温数据、冷数据等3种及以上数据存储类别;
e)
应具备集中和分布式管理元数据能力;
f)
应支持JDBC、接口等模式访问元数据;
g)
应具备数据存储副本数配置的能力;
h)
应支持请求不同服务器的数据一致性和准确性;
i)
应具备分布式对象存储服务配置进行动态修改的能力;
j)
应支持管理员对分布式存储进行审计、权限管理;
k)
应支持添加新用户、创建用户账户、设置用户密码、查看当前存在的用户、删除用户;
l)
应支持通过用户名和密码对用户身份进行认证;
m)
应支持在分布式节点、关键部件,如CPU、内存、硬盘、网卡等运行状态异常下进行告警;
n)
应支持查看在线或离线的用户操作日志,用户操作日志应记录每个用户具体访问时间和操作内容等详细信息;
o)
应支持查看在线或离线的系统日志,系统日志记录系统运行情况,日志支持导出或备份操作;
p)
应支持对包括但不限于存储空间信息,文件对象数量、大小,服务流量变化,服务可用性,延迟等;
q)
宜支持数据存储内容进行版本管理,上传同名对象时不覆盖原有对象,而是产生一个新的版本对象作为当前版本独享;
r)
宜具备分布式存储服务软件友好的部署能力,线上平台支持友好的服务开通;
s)
宜具备自定义数据源接入能力和自定义数据格式解析插件化机制,方便用户根据需要扩展。
7.3 性能效率
当工业大数据平台对分布式存储性能效率存在相关指标时,符合下列要求:
a)
应具备元数据秒级读取能力;
b)
宜支持1000以上个存储节点,且增加节点后系统性能线性提升;
c)
宜支持PB级别的数据存储容量(如10 PB以上);
d)
宜支持数据压缩率达到50%以上,即存储数据量减少至少50%;
e)
在高负载情况下,CPU利用率可保持在70%-80%之间,避免过高负载导致性能瓶颈;
f)
在高负载情况下,内存利用率可保持在60%-70%之间,确保有足够的内存应对突发负载。
7.4 可靠性
分布式存储可靠性符合下列要求。
a)
数据跨机房存储:应支持写入的数据在切块后,散落在不同的服务器中存储。
b)
元数据信息同步:应支持元数据自动备份,实现元数据冷热访问模式。
c)
操作系统故障:应支持CPU资源占用、输入/输出(I/O)资源占用、内存资源占用,并具备磁盘空间占用下数据存储服务能力(故障监测、自动切换)。
d)
单节点故障:应支持单节点故障后,数据请求自动指向其他副本数据进行访问。
e)
硬件故障:宜支持电源插拔,硬盘插拔,网线插拔,交换机、机架、机房故障下的服务能力(故障监测、自动切换、副本自动补齐)。
f)
数据跨地域容灾:宜支持数据对象自动化跨地域进行复制;
7.5 易用性
分布式存储易用性应符合下列要求:
a)
支持可视化安装部署分布式存储系统;
b)
支持可视化进行数据访问;
c)
支持对分布式存储的相关参数进行可视化配置。
T/CPUMT 022-2024
12
7.6 维护性
分布式存储维护性应符合下列要求:
a)
错误检测和提示:支持对用户错误操作、命令或非法数据输入的检验能力和提示情况,要求出错信息中提供差错产生的原因;
b)
日志管理:支持对所有操作行为进行日志记录,支持关键词查看日志错误问题定位。
7.7 可扩展性
分布式存储可扩展性应符合下列要求:
a)
节点动态扩展:支持分布式存储节点动态增加;
b)
扩容、缩容不中断:支持增加或减少节点过程中,服务不中断。
7.8 兼容性
分布式存储兼容性应符合下列要求:
a)
数据库兼容:支持主流国产数据库;
b)
操作系统兼容:支持主流国产系统;
c)
CPU兼容:支持主流国产芯片;
d)
协议兼容:支持HTTP、超文本传输安全协议(HTTPs)等协议兼容;
e)
开发语言兼容:支持Java、C/C++、Python等主流开发语言的访问兼容。
8 数据处理技术要求
8.1 概述
数据处理能力在工业大数据平台主要是实时流式计算、大数据批处理及宽表数据库,其技术要求包括功能性、性能效率、可靠性、易用性、维护性、可扩展性、兼容性等要求。
8.2 实时流式计算
8.2.1 功能性
实时流式计算功能性应符合下列要求。
a)
流数据源:支持常见流数据源,如传输控制协议(TCP)、用户数据报协议(UDP)、HTTP、消息系统(Kafka,RocketMQ等)。
b)
表数据源:支持常见表数据源,例如通用JDBC、ODBC,专用特定数据库接口访问等。
c)
事件数据格式:支持常见数据格式(CSV、JSON、Avro、XML等)和自定义格式解析。
d)
简单事件处理:支持逐一对数据流中单个事件进行提取、清洗、转换等处理。
e)
复杂事件处理:支持持续地从事件流中查询出符合要求的事件序列,进行过滤、关联、聚合等处理。
f)
事件窗口和水位:支持滑动和滚动等多种窗口划分,支持事件水位设置。
g)
缓冲和背压:支持对事件进行缓冲和背压设置。
h)
事件优先级:支持事件优先级和按优先处理的能力。
i)
支持通过SQL对实时流数据进行操作,以完成常用实时数据处理功能。
j)
支持多数据源及多输出目标。
8.2.2 性能效率
当工业大数据平台对数据处理的实时流式计算性能效率存在相关指标时,符合下列要求。
a)
简单事件处理性能:对于简单事件处理,单机性能不应低于每秒50000条。
b)
复杂事件处理性能:对于复杂事件处理,单机性能不应低于每秒5000条。
c)
简单事件处理延迟:在事件流以每秒50000条到达,延迟时间平均值不宜高于1秒,最大值不宜高于2秒。
T/CPUMT 022-2024
13
d)
复杂事件处理延迟:在事件流以每秒5000条到达,延迟时间平均值不宜高于2秒,最大值不宜高于5秒。
8.2.3 可靠性
实时流式计算可靠性应符合下列要求。
a)
长时间负载测试:支持多个实时流并发处理、运行时间724小时,事件处理成功率不应低于95%。
b)
单点故障测试:支持集群部署,单点故障下系统功能正常。
c)
处理一致性:支持一次和至少一次语义。
d)
状态存储和容错:支持定期状态存储,集群或单机全部停机,重启后系统能从存储的状态中恢复。
8.2.4 易用性
实时流式计算易用性应符合下列要求。
a)
手册的一致性和准确性:人机交互界面操作与其相应的文档一致、准确。
b)
界面的规范性:人机交互界面规范、合理且一致。
c)
界面元素的易理解性:
1)
人机交互界面应使用适当的术语、图形表示背景信息和帮助;
2)
人机交互界面上窗口、菜单、图标、文字、鼠标等界面元素能准确理解。
d
) 易浏览性:
1)
具有必要的信息,指导用户使用程序;
2)
输出结果应简洁、直观、方便阅读、易懂和使用;
3)
人机界面风格相对一致;
4)
界面、人机交互、输出中的用语应与业务用语一致;
5)
菜单深度不超过3级。
e
) 易操作性:
1)
提供辅助输入手段(如选择输入、默认值等),数据检索方便、灵活;
2)
安装参数应给出默认值或提示;
f
) 辅助工具:提供图形化的辅助工具。
8.2.5 维护性
实时流式计算维护性应符合下列要求。
a)
错误检测和提示:具备对用户错误操作/命令或非法数据输入的检验能力和提示能力,出错信息中应提供差错产生的原因。
b)
日志信息:支持输出实时日志,对实时记录人为操作及错误信息记录等。
c)
配置管理:支持各类配置参数的修改。
d)
导入与导出:支持配置导入与导出。
8.2.6 可扩展性
实时流式计算可扩展性应符合下列要求。
a)
垂直扩展:支持垂直扩展,性能随硬件提高而提高。
b)
水平扩展:支持集群部署,支持水平扩容。
8.2.7 兼容性
实时流式计算兼容性应符合下列要求。
a)
数据库兼容:支持主流国产数据库。
b)
中间件兼容:支持主流国产流处理中间件。
c)
操作系统兼容:支持在主流国产操作系统上正常运行。
d)
硬件兼容:支持主流国产服务器。
T/CPUMT 022-2024
14
8.3 大数据批处理
8.3.1 功能性
大数据批处理功能性应符合下列要求。
a)
数据抽取的数据源支持多源异构
1)
支持关系型数据库、数据仓库等结构化数据;
2)
支持文本格式数据(如TXT、CSV、JSON等)半结构化数据;
3)
支持多媒体数据等非结构化数据。
b)
数据抽取过程支持多种导入方式
1)
支持通过SQL语法导入数据;
2)
支持通过表述性状态转移(REST)接口规则导入数据;
3)
支持通过文本传输协议(FTP)等协议导入数据。
c)
数据转换过程支持多元操作
1)
支持将相同类型数据的整合,进行一致性转换;
2)
支持数据不同粒度级别的转换;
3)
支持根据相应业务规则进行数据聚合、排序等操作。
d)
数据转换过程支持数据清洗策略
1)
支持对不完整数据的补全或者剔除;
2)
支持对数据进行校验,剔除错误数据;
3)
支持对数据进行去重清洗。
e)
具备对多源异构数据的多元存储策略
1)
支持关系型数据库、非关系型数据库、内存数据库、分布式文件系统、数据仓库等多种存储策略;
2)
批处理过程支持多种方式,支持通过SQL脚本进行批处理操作;
3)
支持通过计算机壳层(shell)脚本支持批处理操作;
4)
支持通过java等开发批处理服务执行批处理操作。
f)
批处理过程支持图形化界面设计
1)
支持采用图形化界面设计批处理流程;
2)
批处理流程可拆分为多个子流程,应支持以图形化的方式设计子流程间的调度关系。
g)
批处理过程支持任务调度
1)
支持采用定时任务启动、停止批处理任务;
2)
支持以分、时、日、周、月、年等单位的时间进行调度。
h)
数据分析集成相应的机器学习算法:支持常见的机器学习模型训练(分类、聚类、回归、异常点检测、关联规则等)。
i)
数据分析支持图表等可视化功能:支持以饼图、柱状图、条形图、气泡图、热力图、瀑布图、突出表、折线图、散点图、交叉表等进行数据可视化呈现。
j)
数据分析支持对分析结果的上报及存储:支持数据分析结果存储至数据库或者以REST接口方式提交给上层应用。
8.3.2 性能效率
当工业大数据平台对大数据批处理性能效率存在相关指标时,符合下列要求。
a)
数据导入性能:记录入库1T数据的时间,不应高于10小时。
b)
数据导出性能:记录出库1T数据的时间,不应高于10小时。
c)
读写性能:1T数据装载后,小表(1w)、中表(100w)、大表(1000w)的精确查询或插入单条记录时间应分别小于200毫秒、1秒、5秒。
d)
数据吞吐量:在10秒内处理的数据量,吞吐速率宜低于10秒。
e)
存储性能:集群在单实例模式下数据入库的数据容量上限, 不宜低于500TB。
f)
宜支持5000以上并行任务。
g)
系统可达到99.9%的年度可用性,即每年最多允许8.76小时的非计划停机时间。
T/CPUMT 022-2024
15
h)
集群节点数可扩展到1000以上。
8.3.3 可靠性
大数据批处理可靠性应符合下列要求。
a)
长时间负载测试:支持在724小时内进行批处理任务,且保证全时段执行正常。
b)
完全备份/还原:支持完全备份、还原,实现全库所有对象的备份和还原。
c)
误操作恢复:支持对索引、表的删除进行还原。
d)
集群故障处理:支持磁盘损坏后,集群节点可以正常读写操作不影响集群业务。
e)
高可用能力:支持集群节点挂起时,集群可以正常提供服务。
f)
副本能力:支持多副本存储。
8.3.4 易用性
大数据批处理易用性应符合下列要求:
a)
各组件界面应风格一致,简洁、美观;
b)
主界面到各组件界面跳转分级明确,操作逻辑一致;
c)
控件使用一致,排列整齐、合理有序;
d)
菜单和按钮命名合理,具有相应的图标或文本提示信息;
e)
必填项未填时应有提示信息,用户提交表单时若存在必填项未填应有明确、醒目的提示;
f)
页面提示信息与内容一致;
g)
页面应对显示内容有筛选;
h)
用户提交的内容应具备可更改功能;
i)
重要、常用功能放在列表、菜单的前位;
j)
不常用功能不应干扰用户正常使用、占用较少的页面面积或页面具备不常用功能隐藏、显示功能;
k)
页面进行高权限、重大操作时对用户应进行提示;
l)
页面报警或提示时,应采用醒目的界面对用户进行提示;
m)
对用户输入的内容应进行自动纠正,如日期格式错误、文本框限制输入内容、数字超出范围自动限制等;
n)
系统后台应具备存储操作日志功能;
o)
系统页面应具备帮助、手册、向导等内容;
p)
系统应支持补丁方式升级、升级时保证原有数据的完整性和继承性;
q)
系统应具备友好的安装部署交互方式;
r)
系统安装后应自动启动用户图形化界面服务,并且图形化界面可用。
8.3.5 维护性
大数据批处理维护性应符合下列要求:
a)
具备维护手册、文档,用于指导运维人员进行维护;
b)
具备平台状态监控和故障提示功能;
c)
具备状态监控和故障提示功能;
d)
具备故障日志,系统应存储故障日志,帮助运维人员分析故障所在;
e)
具备组件管理、替换和重置能力;
f)
具备备份与误操作还原功能;
g)
具备还原功能,在出现故障或误操作时可对平台进行回溯;
h)
具备升级功能。
8.3.6 可扩展性
大数据批处理可扩展性应符合下列要求。
a)
在线扩容:具备存储节点和计算节点各自扩容的能力,以满足突发的业务请求。
b)
分布式存储测试:支持验证测试图分析软件数据是否均衡分布存储在各个节点。
T/CPUMT 022-2024
16
c)
分布式计算测试:支持验证测试图分析软件计算任务是否平均分布到各个节点。
8.3.7 兼容性
大数据批处理兼容性应符合下列要求。
a)
数据库兼容:支持主流国产数据库。
b)
中间件兼容:支持主流国产批处理中间件。
c)
操作系统兼容:支持在主流国产操作系统上正常运行。
d)
硬件兼容:支持主流国产服务器。
8.4 宽表数据库要求
8.4.1 功能性
宽表数据库功能性应符合下列要求:
a)
支持DDL操作,如create、alter、describe、disable、drop、list等;
b)
支持DML操作,如put、get、scan、delete、append等;
c)
支持命名空间操,支持命令空间操作,如alter_namespace, create_namespace, describe_namespace, drop_namespace, list_namespace等;
d)
支持列簇级别生命周期配置,根据生命周期定期清理数据。支持表的列簇设置TTL,可根据TTL定期清理过期数据;
e)
支持表格压缩,如PREFIX 、DIFF 、FAST_DIFF 、ROW_INDEX_V1;
f)
支持表格压缩,如GZIP、snappy、zstd等;
g)
支持分区服务分组管理;
h)
支持二级索引,具备按照某些列的值进行索引的能力。
8.4.2 性能效率
宽表数据库应支持数据批量入库,数据量200GB规模情况下,加载速率不应低于30MB/Node/Sec。
8.4.3 可靠性
宽表数据库可靠性符合下列要求。
a)
长时间负载测试:应支持在724小时长时间负载运行。
b)
备份/恢复:应支持元数据备份/恢复;支持业务数据备份/恢复。
c)
防误删恢复:应支持对表的误删除进行恢复。
d)
高可用能力:应支持集群在存在节点挂起时,集群可以正常提供服务。
e)
主备倒换能力:应支持主动倒换能力,倒换过程中可以正常提供服务。
f)
单集群跨机房高可用:宜支持集群具备跨机房高可用能力,当一个机房故障后,集群是否可以正常提供服务。
g)
主备容灾:应支持主备容灾能力,当主集群故障后,备集群可以接管业务;RPO为分钟级。
h)
主备集群双读:应支持主备集群下双读能力,保证满足低时延的访问要求。
i)
对于关键数据,可存储多个副本,应确保在部分节点故障时,数据仍然可用。
j)
应支持定期对系统健康检查,包括硬件状态、软件更新、日志分析等,确保系统持续稳定运行。
8.4.4 易用性
宽表数据库易用性应符合下列要求:
a)
支持便捷的安装部署;
b)
具备在线升级能力,要求升级过程中业务不中断;
c)
支持监控节点系统级别的参数,如内存、CPU、磁盘、网络等,并且在相关参数超过阈值的时候提出告警;
d)
支持提供表、分区服务、分区数量监控;
e)
支持RPC队列请求量和时延监控;
T/CPUMT 022-2024
17
f)
支持表级别/分区服务/服务级别的读写请求次数、读写请求时延监控;
g)
支持SDK开发接口;
h)
支持Shell命令行开发工具;
i)
支持表述性状态转移应用程序编程接口(Restful API)开发接口。
8.4.5 可扩展性
宽表数据库可扩展性应符合下列要求:
a)
具备数据节点在线扩容、缩容能力;
b)
支持横向扩展集群存储架构,同一集群支持不低于500个节点的扩展;
c)
具备同一集群管理多个宽表服务能力,同一集群支持不低于16个宽表服务的扩展。
8.4.6 兼容性
宽表数据库兼容性应符合下列要求。
a)
操作系统兼容:支持主流国产系统。
b)
CPU兼容:支持主流国产芯片。
9 数据分析技术要求
9.1 概述
数据分析能力在工业大数据平台主要是交互式分析、图分析、数据搜索及AI模型,其技术要求包括功能性、性能效率、可靠性、易用性、可扩展性、兼容性等要求。
9.2 交互式分析
9.2.1 功能性
交互式分析功能性应符合下列要求:
a)
支持数据库、模式、表、视图、函数等数据库对象的创建、删除、描述等操作的SQL语句;
支持多种数据类型;基本类型(TINYINT、SMALLINT、INT、BIGINT、BOOLEAN、FLOAT、DOUBLE、STRING、VARBINARY、TIMESTAMP、INTERVAL、DECIMAL、NUMERIC、DATE、VARCHAR、CHAR )、数组类型、map类型、struct类型;
b)
支持模式、表、视图等数据库对象的定义修改;
c)
支持UDF定义,支持CREATE/DROP/SHOW FUNCTION等语法;
d)
支持物化视图基本能力,包括创建、查看、删除;物化视图支持自动刷新;
e)
支持从查询结果插入到表,如INSERT INTO/OVERWRITE TABLE ;
f)
支持用SQL直接插入数据到表,如INSERT INTO 表名 (列1, 列2, 列3, …) VALUES (值1, 值2, 值3, …);
g)
支持SQL查询语句,如SELECT、WHERE、GROUP BY、HAVING、SORT BY、LIMIT、JOIN(LEFT/RIGHT/FULL)、SEMI JOIN、CROSS JOIN、INTERSECT、EXCEPT;
h)
支持关系、算术、逻辑、数学、集合、类型转换、日期、字符串、条件判断、窗口、聚合等内嵌函数;
i)
支持定义 Local UDF函数(用java语言自己开发自定义功能的UDF函数来满足更多功能的函数需求);
j)
支持定义第三方数据源Remote UDF,关联引用数据源内已有UDF;
k)
支持对数据文件进行压缩,支持Bzip、Lz4、Deflate、Snappy和Gzip等压缩算法;
l)
支持跨源协同访问,支持访问分布式存储、宽表引擎、搜索引擎、实时联机分析处理(OLAP)引擎等。
9.2.2 性能效率
当工业大数据平台对交互式分析性能效率存在相关指标时,应符合下列要求。
T/CPUMT 022-2024
18
a)
单条件精确检索响应时间-单表查询(s):数据量 1T,TPC-DS Q67,查询时间不应高于300秒。
b)
单条件精确检索响应时间-多表关联(s):数据量 1T,TPC-DS Q70,查询时间不应高于50秒。
c)
分区条件查询响应时间-单表查询(s):数据量 1T,TPC-DS Q88,查询时间不应高于50秒。
d)
分区条件查询响应时间-多表关联(s):数据量 1T,TPC-DS Q62,查询时间不应高于30秒。
e)
分区表查询响应时间(s):数据量 1T,TPC-DS Q50,查询时间不应高于30秒。
f)
模糊查询响应时间-单表查询(s):数据量 1T,TPC-DS Q88,查询时间不应高于10秒。
g)
模糊查询响应时间-多表关联(s):数据量 1T,TPC-DS Q91,查询时间不应高于50秒。
9.2.3 可靠性
交互式分析可靠性符合下列要求:
a)
应支持产品在724小时长时间负载运行;
b)
应支持元数据备份/恢复;
c)
应支持集群存在节点故障时,集群正常提供服务;
d)
单集群跨机房高可用:宜支持集群具备跨机房高可用能力,当一个机房故障后,集群可以正常提供服务;
e)
主备容灾:应支持当主集群故障后,备集群可以接管业务,且RPO为小时级。
9.2.4 易用性
交互式分析易用性应符合下列要求:
a)
支持便捷的安装部署;
b)
支持在线升级能力,且升级过程中业务不中断;
c)
支持监控节点系统级别的参数,如内存、CPU,磁盘、网络等,且在相关参数超过阈值的时候提出告警;
d)
支持JDBC开发接口;
e)
支持Shell命令行开发工具;
f)
支持Restful API运维接口(任务管理、实例管理、数据源信息管理)。
9.2.5 可扩展性
交互式分析可扩展性应符合下列要求:
a)
具备计算节点在线扩容能力;
b)
具备计算节点在线缩容能力;
c)
支持计算实例根据集群负载和策略进行自动伸缩;
d)
支持通过动态安装部署,针对不同租户建立不同计算集群;
e)
支持横向扩展集群架构,同一计算集群支持不低于400个计算实例的扩展能力。
9.2.6 兼容性
交互式分析的兼容性应符合下列要求。
a)
数据库兼容:支持主流国产数据库。
b)
操作系统兼容:支持主流国产系统。
c)
CPU兼容:支持主流国产芯片。
9.3 图分析
9.3.1 功能性
9.3.1.1 图存储
图存储功能性应符合下列要求。
a)
数据模型:支持构建属性图模型。
b)
数据类型:支持常用数据类型,如整数/浮点数/字符串/时间戳/布尔/数组数据类型/decimal等。
T/CPUMT 022-2024
19
c)
数据全量导入:支持全量数量导入,并保证正确性。
d)
数据增量导入:支持图的增量导入,并保证导入结果正确。
e)
数据全量导出:支持数据导出功能,支持导出成CSV文件或者关系数据表。
f)
图节点增删改:支持图节点增删改操作。
g)
图关系增删改:支持图关系增删改操作。
h)
图索引操作:支持索引的增加/删除/查询操作。
i)
多图存储:支持存储多张图,且彼此操作互不影响。
j)
图提要(Schema)管理:支持Schema的新增和修改。
9.3.1.2 图遍历
图遍历功能性应符合下列要求。
a)
图遍历操作:支持图的k度路径查询。
b)
语法支持能力:支持正常的图DDL、DML、 数据查询语言(DQL)操作语义。
9.3.1.3 图计算
图计算功能性应符合下列要求。
a)
紧密度算法:支持Pagerank、 Betweenness、Closeness等常见图的紧密度算法。
b)
社区划分类算法:应持LPA、WCC、SC、社区发现算法(Louvain)等常见图的社区划分类算法。
c)
路径发现类算法:支持Dijkstra、 Single Source Shortest Path、 All Pairs Shortest Path等常见图的路径发现类算法。
d)
相似度算法:支持Jaccard Similarity、 Cosine Similarity等常见图的相似度算法。
9.3.1.4 图展示
图展示功能性应符合下列要求。
a)
可视化展示操作:支持可视化界面进行自定义展示的操作,如更改节点、关系的颜色、大小、布局、画布缩放等。
b)
属性详细展示:支持操作图中任意节点、关系,可展示节点、关系的属性详情。
c)
切换展示内容:支持可视化界面可以设置点和边的展示信息为特定属性或者类型名称。
d)
多关系展示:支持数据库两点间多关系的展示,并可以自由选择显示关系上所展示的名称和属性。
e)
界面数据导出功能:支持展示界面保存成图片文件,数据导出成CSV等数据文件。
9.3.2 可靠性
图分析可靠性应符合下列要求。
a)
高可用:支持软件服务器自动处理节点故障。
b)
在线扩容:具备存储节点和计算节点各自扩容能力,以满足突发的业务请求。
c)
分布式存储:支持数据均衡分布存储在各个节点。
d)
分布式计算测试:支持计算任务平均分布到各个节点。
9.3.3 维护性
图分析维护性符合下列要求:
a)
应支持便捷的安装部署,并提供详细的安装部署文档;
b)
应支持在线升级,且升级过程中业务不中断;
c)
应支持系统资源监控,监控系统级别的参数,如内存、CPU、磁盘、网络等,并且在相关参数超过阈值的时候提出告警;
d)
应支持图分析软件监控:系统的监控包括服务状态、图谱状态、数据量、当前请求数等;
e)
应支持作业管理,包括但不限于作业创建、作业启动、作业终止、作业运行日志;
f)
应支持备份恢复,包含全量备份恢复和增量备份恢复;
g)
宜支持资源配额测试:且根据用户分配不同系统资源。
T/CPUMT 022-2024
20
9.3.4 兼容性
图分析兼容性应符合下列要求。
a)
软件兼容:支持主流国产操作系统和数据库。
b)
硬件兼容:支持主流国产服务器。
c)
多模数据支持:兼容关系型数据表或者资源描述框架(RDF)模型的数据的存储和计算。
d)
接口兼容性:支持标准的JDBC或者ODBC接口,支持restful API。
9.4 数据搜索
9.4.1 功能性
数据搜索功能性应符合下列要求。
a)
支持默认条件搜索:检查查询结果列表,符合默认查询条件结果集。
b)
支持可选条件搜索:逐一选择各个查询条件,查询结果正确。
c)
支持输入条件搜索:
1)
逐一输入条件,模糊查询,查询结果正确;
2)
逐一输入条件,完全匹配值,查询结果正确;
3)
逐一输入条件,中文值,查询结果正确;
4)
逐一输入条件,字母大、小写值,查询结果正确;
5)
逐一输入条件,数字类型值,查询结果正确;
6)
逐一输入条件,全角、半角值,查询结果正确;
7)
组合各个条件,查询结果正确。
d)
支持区间条件搜索:
1)
修改区间条件左值,右值使用默认值,查询结果正确;
2)
修改区间条件右值,左值使用默认值,查询结果正确;
3)
修改区间条件左、右值,查询结果正确;
4)
修改区间条件左、右值为边界值,查询结果正确;
5)
修改区间条件左、右值,使左值=右值,查询结果正确;
6)
修改区间条件左、右值,使左值>右值,查询结果为空(或提示信息正确)。
e)
支持组合可选、输入条件搜索:任意组合各个查询条件,更换组合内容搜索,查询结果正确。
f)
支持操作后检查搜索条件及查询结果:选择和输入所有查询条件后,查询结果正确。
g)
支持错误、空记录搜索
1)
逐一选择或输入查询条件为:不存在的值(查询结果集为空),查询结果为空;
2)
逐一选择或输入查询条件为:空格、特殊字符、超长的值,查询结果为空;
3)
组合查询条件,选择或输入不存在、空格、特殊字符、超长的值,查询结果为空。
h)
支持更换组合内容搜索:半结构化数据存储与检索进行半结构数据录入并进行查询,查询结构正确。
i)
支持分词检索:支持数据进行分词存储与查询。
9.4.2 可靠性
数据搜索可靠性应符合下列要求。
a)
长时间负载测试:应支24小时混合检索查询,默认条件搜索、可选条件搜索、输入条件搜索、区间条件搜索1:1:1:1。
b)
完全备份/还原:应支持完全备份/还原,实现全库所有对象的备份和还原。
c)
误操作恢复:应支持对索引/表的删除进行还原。
d)
集群故障处理:应支持磁盘损坏后,集群节点可以正常的读写操作,不影响集群业务。
e)
高可用能力:应支持集群在存在节点挂起时,集群可以正常提供服务。
f)
副本能力:应支持多副本存储。
T/CPUMT 022-2024
21
9.4.3 易用性
数据搜索易用性应符合下列要求:
a)
支持便捷的安装部署,产品提供详细的安装部署文档;
b)
支持测试在线升级能力,要求升级过程中业务不中断;
c)
支持测试数据库是否可以监控系统级别的参数,如内存,CPU、磁盘、网络等,并且在相关参数超过阈值的时候提出告警;
d)
支持数据库根据用户分配不同系统资源;
e)
支持SQL语法和搜索扩展SQL语法:支持SQL语法进行索引/表的各类操作;
f)
支持开源Java API或其他接口。
9.4.4 可扩展性
数据搜索的可扩展性应符合下列要求:
a)
支持数据节点弹性扩容,以满足突发的业务请求;
b)
支持数据均衡分布存储在各个节点;
c)
支持计算任务平均分布到各个节点;
d)
支持数据冷热分离,且对库表打冷热标签。
9.4.5 兼容性
数据搜索兼容性应符合下列要求。
a)
软件兼容:支持主流国产操作系统和数据库。
b)
硬件兼容:支持主流国产服务器。
9.5 AI模型
9.5.1 功能性
AI模型功能性应符合下列要求:
a)
支持机器学习等能力的数据挖掘及分析算法模型;
b)
支持模型动态扩展、有效性校验及评估;
c)
支持算法注册的接口,算法与存储解耦;
d)
支持算法镜像文件存储对接分布式文件系统,保证数据文件的可靠性;
e)
支持为Web类常驻应用提供访问代理和负载均衡。
9.5.2 可靠性
AI模型可靠性应符合下列要求:
a)
使用数据校验技术,如校验和和哈希函数,定期验证数据完整性;
b)
实施严格的数据清洗和验证流程,使用数据验证规则和异常检测算法;
c)
确保数据在不同源之间保持一致,没有冲突或不一致的数据;
d)
使用交叉验证(Cross-validation)技术和多种数据增强(Data Augmentation)方法,确保模型在足够大且多样化的数据集上进行训练,避免过拟合或欠拟合。
9.5.3 易用性
AI模型易用性应符合下列要求:
a)
支持便捷的安装部署,产品提供详细的安装部署文档;
b)
支持内容常见模型便于直接调用;
c)
提供基于Web的管理控制台,支持模型的启动、停止、更新和回滚操作;
d)
具有标准化的API和SDK,使模型能轻松集成到现有系统和应用中;
e)
具有自动化训练功能,使用户能快速构建和训练模型,支持自动超参数调优(AutoML)、模型选择和数据预处理。
T/CPUMT 022-2024
22
9.5.4 可扩展性
AI模型可扩展性应符合下列要求:
a)
支持数据节点弹性扩容,以满足突发的业务请求;
b)
支持数据均衡分布存储在各个节点;
c)
支持计算任务平均分布到各个节点;
d)
支持自定义模型;
e)
支持模型利用分布式计算资源,实现任务的并行处理,以处理大规模数据。
9.5.5 兼容性
AI模型的兼容性应符合下列要求。
a)
软件兼容:支持主流国产操作系统和数据库。
b)
硬件兼容:支持主流国产服务器。
10 数据应用技术要求
10.1 概述
数据应用能力在工业大数据平台主要是数据API接口,其技术要求包括功能性、性能效率、可靠性、易用性、兼容性等要求。
10.2 功能性
数据应用能力功能性应符合下列要求:
a)
支持应用数据查询、获取;
b)
支持批量查询及在线数据交互式查询获取;
c)
支持数据分析、数据请求及数据订阅功能;
d)
支持多接口,如RESTful、API、RPC等;
e)
支持灰度升级维护。
10.3 性能效率
数据应用能力性能效率符合下列要求:
a)
对于密集型的数据应用,响应时间应小于2秒;
b)
数据应用传输吞吐量应大于100MB/s;
c)
并发请求能力宜大于5000个并发连接。
10.4 可靠性
数据应用能力可靠性应符合下列要求:
a)
数据应用请求错误率应小于0.1%;
b)
数据应用的年度可用性应达到99.9%。
10.5 易用性
数据应用能力易用性应符合下列要求:
a)
支持通过界面管理数据应用;
b)
具备完善文档说明及操作引导;
c)
提供数据应用版本控制,可回滚历史版本;
d)
支持多语言客户端。
10.6 兼容性
数据应用能力兼容性应符合下列要求。
a)
软件兼容:支持主流国产操作系统和数据库。
T/CPUMT 022-2024
23
b)
硬件兼容:支持主流国产服务器。
11 平台运维技术要求
11.1 概述
平台运维能力在工业大数据平台主要是监控告警、健康检查及日志管理,其性能要求包括功能性、性能效率、可靠性、易用性、兼容性等要求。
11.2 监控告警
11.2.1 功能性
监控告警功能性应符合下列要求:
a)
支持对主机、容器、服务实例等进行实时监控;
b)
支持系统自动感知故障并生成告警信息;
c)
支持与第三方告警和监控系统对接;
d)
支持自定义告警规则;
e)
支持多级告警及多种告警方式。
11.2.2 性能效率
监控告警性能效率符合下列要求:
a)
对关键指标进行实时监控,数据采集的频率应至少为每秒采集1次;
b)
从检测到异常到生成告警的时间应不超过5秒;
c)
监控界面加载和交互的响应时间应小于3秒;
d)
宜支持每秒处理至少500MB以上的监控数据。
11.2.3 可靠性
监控告警可靠性应符合下列要求:
a)
监控告警的年度可用性应达到99.9%,即每年的累计停机时间不应超过8.76小时;
b)
关键监控数据的保留期不应少于30天;
c)
监控告警应能同时支持100个并发用户访问和操作。
11.2.4 易用性
监控告警易用性应符合下列要求:
a)
支持提供告警恢复的方法;
b)
提供简单的配置流程及详尽的操作文档。
11.2.5 兼容性
监控告警兼容性应符合下列要求:
a)
软件兼容:支持主流国产操作系统和数据库;
b)
硬件兼容:支持主流国产服务器。
11.3 健康检查
11.3.1 功能性
健康检查功能性应符合下列要求:
a)
支持对系统运行环境定期进行自动检查;
b)
支持对健康检查报告的导出及问题分析;
c)
提供健康检查的图形化界面;
d)
支持手动健康检查;
e)
支持自定义健康检查项。
T/CPUMT 022-2024
24
11.3.2 性能效率
健康检查性能效率应符合下列要求:
a)
健康检查期间,CPU占用应小于1%;
b)
内存消耗应小于100 MB;
c)
100%的关键服务应纳入健康检查范围;
d)
健康检查的准确性应达到99%

下载说明

关于本站 | 联系我们 | 下载帮助 | 下载声明 | 信息反馈 | 网站地图