ICS 35.240 GB L 67 中华人民共和国国家标准 GB/T 377212019 信息技术 大数据分析系统功能要求 Information technology--Functional requirements for big data analytic systems 2019-08-30 发布 2020-03-01实施 国家市场监督管理总局 发布 中国国家标准化管理委员会 GB/T 37721--2019 目次 前言 范围 2:: 规范性引用文件 3术语和定义 4:缩略语 5. 总体要求 数据准备模块功能要求 6.1. 数据抽取功能要求 6.2数据清洗功能要求 6.3数据转换功能要求 6.4数据加载功能要求 7:分析支撑模块功能要求 7.1查询功能要求 7.2.机器学习功能要求 7.3、统计分析功能要求 7.4可视化功能要求 8:数据分析模块功能要求 8.1分析模式 8.2.分析类型 9:流程编排模块功能要求 9.1工作流管理 9.2告警和日志 附录A(资料性附录) SQL关键字 GB/T 377212019 前言 本标准按照 GB/T1.12009 给出的规则起草, 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口: 本标准起草单位:浪潮电子信息产业股份有限公司、中国电子技术标准化研究院、勤智数码科技股 份有限公司、杭州海康威视数字技术股份有限公司浪潮软件集团有限公司、上海计算机软件技术开发 中心、新华三技术有限公司、天津南大通用数据技术股份有限公司、中兴通讯股份有限公司、华为技术有 限公司、星环信息科技(上海)有限公司、北京百分点信息科技有限公司、北明软件有限公司、哈尔滨哈工 大大数据通用技术有限公司、国网上海市电力公司、陕西省信息化工程研究院、南京南瑞信息通信科技 有限公司、广州浪潮大数据研究有限公司、杭州中奥科技有限公司科大讯飞股份有限公司。 本标准主要起草人苏志远、张东、赵江、卫凤林、张群、刘宇峰、李正、赵世范、黄先芝、王建华、 陈敏刚、刘振宇、蔡立志、潘子健、赵伟、孙卡、吴文峰、刘蔚、王东、赵华、符海芳、周洪明、孙伟、汪疆平、 王进宏、赵志强、王刚、王宏志、郭乃网、苏运、张勇、孙立华、汤宁、刘广庆、沈贝伦、陆韵、武新、张绍勇、 赵乾、李冰、尹卓、孙嘉阳 GB/T 37721--2019 信息技术大数据分析系统功能要求 1范围 本标准规定了大数据分析系统的数据准备模块、分析支撑模块、数据分析模块和流程编排模块的功 能要求。 本标准适用于大数据分析系统的设计、开发和应用部署。 2规范性引用文件 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T352952017信息技术:大数据术语 3术语和定义 GB/T 35295-2017.界定的以及下列术语和定义适用于本文件。 3.1 大数据分析系统big data analytic systems 在大数据存储和处理系统提供的原始数据和计算框架的基础上,集成了一系列数据分析生存周期 过程中所用工具的系统, 3.2 结构化数据structureddata 存储在数据库里,可以用二维表结构表示的数据。 3.3 非结构化数据.unstruetureddata 除了结构化数据之外的没有明确结构约束的数据。 3.4 分布式执行计划.distributed executionplan 分布式场景下的SQL查询计划,需要根据数据分布特点将SQL拆分成多个切片及多个步骤,提供 调度给多节点并行执行。 4缩略语 下列缩略语适用于本文件。 API:应用程序编程接口(Application Programming Interface) GPU.图形处理器(Graphics Processing Unit) JSON:JS 对象标记(JavaScript Object Notation) OLAP:联机分析处理(On-Line Analytical Processing) REST:表述性状态转移(Representational State Transfer) GB/T: 37721--2019 SQL:结构化查询语言(Structured Qucry Language) SSD: 固态硬盘(Solid State Drives) XML 可扩展置标语言(Extensible Markup Language) 5. :总体要求 本标准主要从以下4个方面对大数据分析系统的基本功能做出要求 a 数据准备模块的功能要求,对原始数据进行预处理,使数据能被上层分析方法直接使用; b): 分析支撑模块的功能要求:提供建立数据模型和应用模型的算法库或者工具库; ): 数据分析模块的功能要求,提供数据分析方法或者中间件,将数据准备模块输出的数据以及数 据建模过程中产生的中间数据转变成知识或者决策; (p 流程编排模块的功能要求:按照工作流对数据处理生存周期的各环节进行编排。 各模块间存在相互作用的关系,如图1所宗 大数据分析系统框架 数据准 数据分析模块 各模块 流程 分析模式 分析类型 编排 数据抽取 预测型 模块 离线数据 流数据 描述型 交互式 分析 分析 分析 分析 分析 数据清洗 工作流 管理 数据转换 分析支撑模块 告警和 数据加较 查 机器学习 统计分析 可视化 日志 图1大数据分析系统框架 6 数据准备模块功能要求 6.1 数据抽取功能要求 数据抽取模块要求如下 a) 应支持按照需求将存放在存储系统中的数据进行抽取; 6) 应提供对结构化数据、非结构化数据的不同捕取方法, c) 应提供全量抽取及增量抽取模式: d) 应支持主动抽取和被动追加: e) 应支持定时批量抽取, 0 宜支持分布式数据抽取,实现数据抽取过程的负载均衡。 6.2.. 数据清洗功能要求 数据清洗模块要求如下 a)应支持数据致性; 2 GB/T 37721--2019 b)应支持处理无效值,包括无效数据值的删除、修正等; c) 应支持处理缺失值,包括缺失值的填充或缺失值对应数据条目的删除等; d) 应支持处理重复数据,包括重复数据的合并或者删除等操作: e) 应提供清洗前后的数据比对功能,方便使用者检验清洗的效果; f). 宜支持逻辑矛盾、关联性验证、不合理数据的清洗。 6.3 数据转换功能要求 数据转换模块要求如下 a) 应支持结构化数据的列转换; b): 应支持结构化数据的行转换; ) 应支持结构化数据的表转换; (p 宜支持非结构化数据的结构化处理; 宜支持对文本、网页类数据的规范化处理,将文档类数据转化成单规范形式, 宜支持对语音/音频数据的识别处理,将语音的词汇内容转换为计算机可读的输入: g) 宜支持对图片中的内容转换为字符文本,提取图像信息。 6.4数据加载功能要求 数据加载模块要求如下: 应支持把经过清洗和转换之后的数据加载到大数据分析系统,为分析功能模块提供数据。 b): 宜支持全量加载按照加载的目标结构,将转换过的数据输入到目标结构中去。 c) 宜支持增量加载:如果日标结构中已经存在数据,在保存已有数据的基础上增加新的数据。当 个输人的数据记录与已经存在的记录重复时,丢弃新输入的数据,或者输人记录可能会作为 副本增加进去。 :(P 应支持实时加载或批量加载两种方式, 7:分析支撑模块功能要求 7.1查询功能要求 7.1.1 “查询接口要求 查询接口要求如下 a).应支持通过标准的数据库连接接口进行查询; b)应支持RESTAPI查询接口进行查询。 7.1.2查询优化要求 查询优化要求如下: a). 应支持建立数据索引,达到查询加速的效果: 应支持精确查询和模糊查询; c): 宜支持基于规则或者基于成本的查询优化; d) 宜支持数据分片和多副本技术优化查询速度: 宜支持通过SQL进行复杂条件高并发查询: 宜支持二级索引。

pdf文档 GB-T 37721-2019信息技术大数据分析系统功能要求

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 37721-2019信息技术大数据分析系统功能要求 第 1 页 GB-T 37721-2019信息技术大数据分析系统功能要求 第 2 页 GB-T 37721-2019信息技术大数据分析系统功能要求 第 3 页
下载文档到电脑,方便使用
本文档由 思安 于 2023-01-15 17:30:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。