ICS 07.080 A 40 中华人民共和国国家标准 GB/T35890—2018 高通量测序数据序列格式规范 Technical specification of high throughput sequencing data format 2018-09-01实施 2018-02-06发布 中华人民共和国国家质量监督检验检疫总局 发布 中国国家标准化管理委员会 GB/T35890—2018 前言 本标准按照GB/T1.12009给出的规则起草 本标准由全国生化检测标准化技术委员会(SAC/TC387)提出并归口。 本标准起草单位:深圳华大基因研究院、中国计量科学研究院。 本标准主要起草人:梁鑫明、刘心、蒋慧、杜佳婷、谢强、李倩一、李岱怡、王晶。 GB/T 35890—2018 高通量测序数据序列格式规范 1范围 本标准规定了高通量测序数据的序列格式,包括序列描述格式规范和高通量测序数据整体格式 规范。 本标准适用于规范生物体DNA高通量测序数据序列格式 2规范性引用文件 2 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T30989高通量基因测序技术规程 ISO/IEC646信息技术ISO信息交换七位编码字集(Informationtechnology一ISO7-bitcoded character setfor information interchange) 3术语和定义 3 下列术语和定义适用于本文件。 3.1 高通量测序 high-throughput sequencing 以一次并行几十万到几百万条核酸分子序列测定和一般读长较短等为标志,适用于DNA的测序 技术。 注:改写GB/T30989—2014,定义3.1.9。 3.2 测序片段 reads 高通量测序平台产生的含有碱基序列和质量值的序列片段 3.3 双末端测序 paired-endsequencing 对DNA模板链和互补链分别测序,并得到两条链成对测序片段的测序技术。 3.4 插入片段长度 insertsize 双末端测序中,从模板链测序的测序片段左端到互补链测序的测序片段右端的距离。 3.5 测序片段识别码 readsidentifier 用以识别一段测序片段的具有唯一性的字符串。 3.6 碱基序列 Jbasesequence 小写字母(a、t、c、g和n),其中字母A和a表示腺嘌呤,字母T和t表示胸腺嘧啶,字母C和c表示胞 1 GB/T35890—2018 啶,字母G和g表示鸟嘌岭,字母N和n表示未测定的碱基。 3.7 美国标准信息交换代码Americanstandardcodeforinformationinterchange;ASCII 基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,并等同于国际标准 ISO/IEC 646。 3.8 质量值体系 quality score system 测序碱基质量一个特定的范围,常见的质量值体系有Phred十33和Phred十64两种,Phred十33体 系质量值0对应ASCII码33,用!表示,Phred+64体系质量值0对应ASCII码64,用?表示。 3.9 FASTQ格式 FASTQformat FASTQ是基于文本的、保存生物序列(通常是核酸序列)和其测序质量信息的、每四行表示一条序 列的标准格式。 3.10 SAM/BAM格式 SAM/BAMformat SAM是基于文本的、存储核酸序列和其测序质量信息的、以每一行表示一条序列、每行以制表符分 割成11列的标准格式,测序质量信息使用ASCII字符表示,BAM是SAM格式的二进制格式。 注:SAM和BAM也可作为序列比对格式。 3.11 参考序列 reference sequence 测序片段对应的物种基因组序列。 4缩略语 下列缩略语适用于本文件。 bp:碱基对(basepair) DNA:脱氧核糖核酸(deoxyribonucleicacid) ID:识别码(identifier) MAPQ:比对质量(mappingquality) POS:比对起始位点(position) QNAME:查询序列名称/测序片段名称(queryname) RNAME:参考序列名称(referencename) 序列描述规范 5.1 测序片段ID 测序片段ID应保证一个序列编号对应一段测序片段,具有唯一性。对于双末端测序序列,ID中应 包含标明模板链或互补链的标识。 5.2 碱基序列 (SAM/BAM格式)。 2 GB/T358902018 6高通量测序数据整体格式规范 6.11 FASTQ格式 每一条测序序列用以下4行信息表示: 首行以字符@开头,后面为测序片段ID,字符与测序片段ID之间不应有空格,格式规范与 a) 5.1小节描述一致; b) 第二行为测序的碱基序列信息,不应换行; 第三行以加号(十)开头,后面内容与首行一样,为序列ID,序列ID可省略; d) 第四行为第二行的碱基序列对应的测序质量值,不应换行。测序质量值应用ASCII码表示, 且质量值体系与ASCII码对照表应符合附录A的规定。 6.2 2SAM/BAM格式 6.2.1基本结构 SAM/BAM格式分为头文件和比对结果两部分。 6.2.2头文件 头文件每行应以字符@开头,后面为HD,SQ,RG,PG和CO标签信息,每行标签与子标签应用制 表符间隔,头文件标签符合附录B的规定。头文件标签格式规范如下: HD标签应存在; 一当测序片段比对上参考序列时,SQ标签应存在; 一当RG出现在比对结果任意一行时,其对应编号应出现RG标签中,该RG标签自成一行; ——当PG出现在比对结果任意一行时,其对应编号应出现PG标签中,该PG标签自成一行 6.2.3比对结果 比对结果每行的信息应用制表符间隔,分为11列必须字段和1列可选字段,每个字段描述如下: a) 测序片段名称QNAME,格式规范与5.1小节描述一致; b) 比对情况标记,具体规范符合附录C的规定; SAG c) 参考序列名称RNAME,如果测序片段未必对上任何参考序列,RNAME应用星号(*)表示; d) POS,测序片段比对到参考序列的最左起始坐标,最小值为1。如果测序片段未比对上任何参 考序列,起始坐标应记为0; e) 比对质量MAPQ,如果测序片段未比对上任何参考序列,MAPQ应记为255; f) CIGAR字符串,记录插人,删除,错配以及剪切拼接等信息; 对于双末端测序,测序片段互补链比对到参考序列的编号,等号(=)表示与模板链与互补链比 对到的参考序列编号相同; h) 互补链比对到参考序列的最左起始坐标; i) 推测的插入片段长度; j) 测序片段碱基序列; k) 测序片段碱基序列对应的质量值序列; 1) 可选字段,格式如:标签:类型:数值,其中标签由两个字符组成,首字符为大写字母(A~Z)、小 写字母(a~z)的任意组合,第二个字符为大写字母、小写字母和数字(0~9)的任意组合,每个

pdf文档 GB-T 35890-2018 高通量测序数据序列格式规范

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 35890-2018 高通量测序数据序列格式规范 第 1 页 GB-T 35890-2018 高通量测序数据序列格式规范 第 2 页 GB-T 35890-2018 高通量测序数据序列格式规范 第 3 页
下载文档到电脑,方便使用
本文档由 思安 于 2023-02-21 17:31:17上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。