ICS35.240 L67 中华人民共和国国家标准 GB/T38673—2020 信息技术 大数据 大数据系统基本要求 Informationtechnology—Bigdata—Basicrequirementsforbigdatasystems 2020-04-28发布 2020-11-01实施 国家市场监督管理总局 国家标准化管理委员会发布目 次 前言 Ⅲ ………………………………………………………………………………………………………… 1 范围 1 ……………………………………………………………………………………………………… 2 规范性引用文件 1 ………………………………………………………………………………………… 3 术语和定义 1 ……………………………………………………………………………………………… 4 缩略语 1 …………………………………………………………………………………………………… 5 大数据系统框架 2 ………………………………………………………………………………………… 6 功能要求 3 ………………………………………………………………………………………………… 6.1 数据收集模块 3 ……………………………………………………………………………………… 6.2 数据预处理模块 3 …………………………………………………………………………………… 6.3 数据存储模块 3 ……………………………………………………………………………………… 6.4 数据处理模块 4 ……………………………………………………………………………………… 6.5 数据分析模块 5 ……………………………………………………………………………………… 6.6 数据可视化模块 6 …………………………………………………………………………………… 6.7 数据访问模块 6 ……………………………………………………………………………………… 6.8 资源管理模块 6 ……………………………………………………………………………………… 6.9 系统管理模块 6 ……………………………………………………………………………………… 7 非功能要求 6 ……………………………………………………………………………………………… 7.1 可靠性要求 6 ………………………………………………………………………………………… 7.2 兼容性要求 7 ………………………………………………………………………………………… 7.3 安全性要求 7 ………………………………………………………………………………………… 7.4 可扩展性要求 8 ……………………………………………………………………………………… 7.5 维护性要求 8 ………………………………………………………………………………………… 7.6 易用性要求 8 ………………………………………………………………………………………… ⅠGB/T38673—2020前 言 本标准按照GB/T1.1—2009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本标准起草单位:中国电子技术标准化研究院、华为技术有限公司、北京大学、中国人民大学、中兴 通讯股份有限公司、浪潮电子信息产业股份有限公司、阿里云计算有限公司、天津南大通用数据技术有 限公司、北京百分点信息科技有限公司、复旦大学、南京大学、东南大学、北京和仲宁信息技术有限公司、 北京启迪区块链科技发展有限公司。 本标准主要起草人:梅宏、孙文龙、杜小勇、吴东亚、董建、张群、尹卓、许洁、李冰、李瑛、高琨、朱松、 赵江、张展新、梁佳男、赵俊峰、符海芳、卫凤林、孙嘉阳、赵菁华、陈晋川、刘海军、孙伟、姜育刚、周志华、 张敏灵。 ⅢGB/T38673—2020信息技术 大数据 大数据系统基本要求 1 范围 本标准规定了大数据系统的功能要求和非功能要求。 本标准适用于各类大数据系统要求的设计、选型、验收和检测。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T35295—2017 信息技术 大数据 术语 GB/T35589—2017 信息技术 大数据 技术参考模型 3 术语和定义 GB/T35295—2017界定的以及下列术语和定义适用于本文件。为了便于使用,以下重复列出了 GB/T35295—2017中的某些术语和定义。 3.1 大数据系统 bigdatasystem 实现大数据参考体系结构的全部或部分功能的系统。 [GB/T35295—2017,定义2.1.14] 3.2 分布式计算 distributedcomputing 一种覆盖存储层和处理层的、用于实现多类型程序设计算法模型的计算模式。 注:分布式计算结果通常加载到分析环境。MapReduce是数据分布式计算中默认的处理构件。 [GB/T35295—2017,定义2.1.22] 3.3 集群 cluster 一组相互独立的、通过高速网络互联的计算机或服务器。 3.4 租户 tenant 对一组物理和虚拟资源进行共享访问的一个或多个云服务用户。 4 缩略语 下列缩略语适用于本文件。 1GB/T38673—2020API:应用程序接口(ApplicationProgrammingInterface) CPU:中央处理器(CentralProcessingUnit) DAG:有向无环图(DirectedAcyclicGraph) OLAP:联机分析处理(On-LineAnalyticalProcessing) REST:表述性状态转移(RepresentationalStateTransfer) SQL:结构化查询语言(StructuredQueryLanguage) 5 大数据系统框架 GB/T35589—2017定义了大数据参考架构,如图1所示。大数据参考模型是一个通用的大数据 系统概念模型,它表示了通用的、与技术无关的大数据系统的逻辑功能构件及构件之间的互操作接口, 作为开发各种具体类型大数据应用系统架构的通用技术参考框架。 图1 大数据参考架构 本标准参考大数据参考架构逻辑功能构件划分,将大数据系统划分为数据收集、数据预处理、数据 存储、数据处理、数据分析、数据访问、数据可视化、资源管理、系统管理9个模块。大数据系统框架如 图2所示。 2GB/T38673—2020图2 大数据系统框架 6 功能要求 6.1 数据收集模块 数据收集模块要求如下: a) 应提供数据导入功能,支持结构化数据、非结构化数据和半结构化数据导入; b) 应支持离线数据导入和实时数据导入; c) 应支持全量数据导入和增量数据导入; d) 应提供自动定时导入数据功能; e) 宜提供开放的数据导入API; f) 宜提供图形界面实现数据导入功能。 6.2 数据预处理模块 数据预处理模块要求如下: a) 应提供数据抽取功能,支持对结构化数据、非结构化数据和半结构化数据进行抽取; b) 应提供数据清洗功能,支持对不一致数据、无效数据、缺失数据和重复数据的处理; c) 应提供结构化数据的列转换、行转换和表转换功能; d) 应提供数据加载功能,支持将经过清洗和转换的数据加载到数据分析模块; e) 宜提供清洗前后的数据比对功能; f) 宜支持非结构化数据的数据转换功能。 6.3 数据存储模块 数据存储模块要求如下: a) 应提供数据存储功能,支持结构化数据、非结构化数据和半结构化数据存储。 b) 应提供与关系型数据库、其他文件系统之间交换数据或文件的功能。 c) 支持分布式文件存储,实现以下功能: 3GB/T38673—20201) 应支持文件系统基本操作,包括上传、下载、读写、复制、移动、删除、重命名、权限修改等; 2) 应提供数据块多副本存储、恢复功能; 3) 宜支持文件快速检索功能,支持数据资源的统一检索、编目、增加和删除操作; 4) 宜支持数据压缩存储功能。 d) 支持分布式列式数据存储,实现以下功能: 1) 应支持以键值形式存储数据的功能; 2) 宜支持基于表、列族和列的用户权限管理功能,权限管理操作包括读、写、创建等。 e) 支持分布式结构化数据存储,实现以下功能: 1) 宜支持结构化数据的分布式存储,保证数据存储的可扩展性和一致性; 2) 宜提供API实现数据的各类查询操作; 3) 宜支持多表关联。 f) 支持分布式图数据存储,实现以下功能: 1) 宜支持由节点及边组成的数据模型; 2) 宜支持图查询,支持单节点、多节点多层关系的扩线查询; 3) 宜支持图遍历,支持最短路径、最优路径遍历查询; 4) 宜支持图分析。 6.4 数据处理模块 数据处理模块要求如下: a) 支持批处理框架,实现以下功能: 1) 应支持结构化数据、非结构化数据和半结构化数据的离线分析; 2) 应支持多节点离线任务联动执行; 3) 应支持分散-聚集的处理方式; 4) 宜支持多种开发语言接口。 b) 支持流处理框架,实现以下功能: 1) 应提供实时计算功能,并将计算结果输出到消息队列或持久化; 2) 应支持采用滑动窗口方式的实时分析任务,时间窗口大小可调; 3) 应提供容错机制,出现故障时,可对故障进行处理; 4) 宜提供用户级别的访问控制功能,支持对消息处理任务进行创建、浏览、中

pdf文档 GB-T 38673-2020 信息技术 大数据 大数据系统基本要求

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 38673-2020 信息技术 大数据 大数据系统基本要求 第 1 页 GB-T 38673-2020 信息技术 大数据 大数据系统基本要求 第 2 页 GB-T 38673-2020 信息技术 大数据 大数据系统基本要求 第 3 页
下载文档到电脑,方便使用
本文档由 思安 于 2023-01-15 17:30:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。