ICS35.240.01 L 70 中华人民共和国国家标准 GB/T 36338—2018 信息处理用藏文文献文本信息标记规范 Specification on Tibetan literature text markup for information processing 2018-06-07发布 2019-01-01实施 国家市场监督管理总局 发布 中国国家标准化管理委员会 GB/T36338—2018 目 次 前言 范围 2 规范性引用文件 术语和定义 藏文文献的标记框架 藏文文献文本基本属性的标记 5 6 藏文文献文本结构信息的标记 藏文文献文本标记规范 7 附录A(资料性附录) 《更敦群培文集》的TEI标记范例 18 GB/T36338—2018 前言 本标准按照GB/T1.1—2009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本标准起草单位:中国电子技术标准化研究院、西北民族大学、西藏自治区藏语文工作委员会办公 青海民族大学、中国藏学研究中心、民族出版社、北京北大方正电子有限公司、潍坊北大青鸟华光照排有 限公司。 本标准主要起草人:多拉、扎西加、熊涛、尼玛才让、杨本加、多杰卓玛、索南才让、冷本扎西、刘汇丹、 仁青卓么、项见措、格桑多吉、黄鹤鸣、才让加。 GB/T36338—2018 信息处理用藏文文献文本信息标记规范 1范围 本标准规定了藏文数字文献的文本信息标记。 本标准适用于藏文语料库建设及藏文各种文献的数字化标记。 规范性引用文件 2 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 3 术语和定义 下列术语和定义适用于本文件。 3.1 藏文文献Tibetan literature 由藏文(包括古藏文及梵文转写)构成的各种文献 3.2 文本置标语言textencodinginitiative;TEI 一种定义电子文档结构和描述其内容的国际标准语言。 注1:目前在信息处理界电子图书馆相关计划中普遍使用的置标语言:适用于对电子形式的全文的编码和描述 注2:TEI元数据标准同时也规定了可供数据交换的标准编码格式,采用SGML文件格式 3.3 班智达Bantita 梵语,意为学识渊博的学者,专指参与经典翻译的印度等地学者。 注:班智达和译师分为藏文文献厘定前与厘定后两种。 藏文文献的标记框架 4 TEI适用于对电子形式的全文的编码和描述。TEI元数据标准同时也规定了可供数据交换的标准 编码格式,使用GB/T14814一1993规定的SGML作为其编码语言。TEI格式具有很大限度的灵活 性、综合性、可扩展性,能支持对各种类型或特征的文档进行编码。TEI元数据标记可以对语料库的文 本属性信息与文本结构信息进行规范的标记。 TEI文档,也是一个SGML文档,一般有四个部分:teiHeader(题名),front(文本前的信息),body (正文),back(文本后的信息)。TeiHeader:对电子文本对象的描述。front:对正文前的信息描述,包含 位于文件最前端的项目(标头、题名页、前言、献词等。)。body:对正文信息的描述,单篇文章的整体部 分,不包含正文前及正文后信息。back:对正文后的信息描述,包含附录等, TEI标头的第一层可以包含<fileDesc》文档描述、(encodingDesc)编码描述、《profileDesc)文件背 1 GB/T36338—2018 景描述、<revisionDesc)修订描述四个区段,其中只有第一个[<fileDesc>(文档描述)是必要元素。 《fileDesc》可以包含七个子元素:《titleStmt)(题名描述)、(editionStmt)(版本描述)、《extent)(档案 大小)、《publicationStmt)(出版描述)、《seriesStmt)(从编描述)、《notesStmt)(附注描述)及 《sourceDesc)(来源描述)。其中,只有《titleStmt)(题名描述)、《publicationStmt)(出版描述)及 (sourceDesc)(来源描述)是必要元素。因此最小的TEI标头只包含《fileDesc》。在这个《fileDesc)中, 依次包含(titleStmt)、(publicationStmt)和<sourceDesc)。藏文TEI标记范例参见附录A。 根据以上规范,tei标记的整体架构可以表示如下: <tei) (teiheader) <fileDesc文档描述</fileDesc) (encodingDesc)编码描述</encodingDesc) 《profileDesc)文件背景描述</profileDesc) 《revisionDesc>修订描述</revisionDesc) </teiheader) (text) <front》正文前的信息描述</front) 《body)正文信息描述(/body) <back)正文后的信息描述 </back) </text) </tei) 5藏文文献文本基本属性的标记 TEI元数据标准规定了描述文本的书目信息所需要的标记,主要在fileDesc部分,有6个复合元 素;在此6种元素的基础上,为了便于对语料搜索和统计,自定义了语料的标题、作者、来源、领域、体裁、 语言层次、文类、语式、年代、译者、编者、本次、版本、出版、日期、语言、国家、性别、年代、创作时间、记录 者等18项属性信息。 SAC 5.1标题属性信息 文本标题信息用TEI标记为<title)《/title>。 5.2作者属性信息 作者信息用TEI标记为<author></author>,文本作者可以是个人或机构,如果无作者此项可以不填 5555'565'a5/author)或《author)55a//author)。 5.3来源属性信息 文本来源信息用TEI标记为<source).</source),来源可以是报纸、期刊、书籍等,若来源不详此 栏可以不填。 例:“”“”“”等可以标记为source) 2 GB/T36338—2018 /source)(source/source)《source)/source) 5.4领域属性信息 文本领域信息用TEI标记为<field></field)。领域可以是文学、法律、科技、藏医等。 示例:“"“”“”等可以标记为《field) </field<field)</field)、<field></field)。 5.5体裁属性信息 文本体裁信息用TEI标记为<genre)</genre),体裁可以是文学、媒体、公文等。 <genre)《/genre)<genre)</genre)genre)/genre)。 5.6语言层次属性信息 文本的语言层次信息用TEI标记为<language)<language),语言层次可以是单语、双语、多语 种等。 示例1:<language)5<language) 示例2:<language)汉文<language) 5.7语式属性信息 文本的语式信息用XML标记为<style)</style),语式可以分为书面语和口语。 者可以标记为<style></Style)。 5.8年代属性信息 文本年代信息用TEI标记为<date>《/date),年代可以是出版日期、创作时间。 示例:“201010”“1990”,可以标记为(date)2010.10</date)《date)1990</date)。 5.9译者属性信息 文本译者信息用TEI标记为<translator></translator) 示例:“”,可以标记为<translator)/translator)。 5.10编者属性信息 文本编者信息用TEI标记为editor)</editor),编者可以分为主编、编者。 示例:“”“”,可以标记为《editor》editor)《editor》 </ editor) 5.11版本属性信息 文本版本信息用TEI标记为<edition》</edition>,版本信息可以是不同的版本。 示例:“”“”,可以标记为《edition》/edition)《edition》/edition)。 3 GB/T36338—2018 5.12地方属性信息 文本地方信息用TEI标记为<publiace)</publiace),地方信息可以是出版社所属的省市。 5.13出版属性信息 文本出版信息用TEI标记为<publisher).</publisher),出版信息是不同出版社的名称。 5.14文本语言信息 文本语言信息用TEI标记为<language)《/language),语言信息是指文献的语言文种。 示例:“",可以标记为<language)/language)。 5.15国家属性信息 文本的国家信息用TEI标记为<nationality)《/nationality),指不同国家的信息。 示例:“尽,可以标记为《nationality》《/nationality)。 5.16作者性别属性信息 文本作者的信息用TEI标记为《author)</author),不同作者的性别属性。 示例:“",可以标记为<author>/author>。 5.17时代属性信息 文本时代信息用TEI标记为<period)/period),文本时代信息可以分为古代、近代、现代、当代四 个阶段。 示例

pdf文档 GB-T 36338-2018 信息处理用藏文文献文本信息标记规范

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 36338-2018 信息处理用藏文文献文本信息标记规范 第 1 页 GB-T 36338-2018 信息处理用藏文文献文本信息标记规范 第 2 页 GB-T 36338-2018 信息处理用藏文文献文本信息标记规范 第 3 页
下载文档到电脑,方便使用
本文档由 思安 于 2023-01-26 17:30:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。