UDC 681. 3 : 001. 4 : 809. 51 L 70 C 中华人民共和国国家标准 GB 12200.1—90 汉语信息处理词汇 01部分:基本术语 Chinese information processing--Vocabulary Part 01 Fundamental terms 1990-02-01发布 1990-08-01实施 国家技术监督局发布 中华人民共和国国家标准 汉语信息处理词汇 GB 12200.1—90 01部分:基本术语 Chinese information processingVocabulary Part 01 :Fundamental terms 本词汇涉及到汉语信息处理的各个主要方面,其中包括基本术语、汉语和汉字、汉字编码、汉字识 别、汉语语音处理、汉语理解、机器翻译、汉语信息处理设备、汉语信息处理系统软件、汉语信息处理技术 应用及其他等约11个部分。在学科方面,本词汇具有相对的独立性和系统性。 1主题内容与适用范围 1.1主题内容 本标准规定了最重要的或最基本的汉语信息处理术语,它们是其他各部分的基础。 1.2适用范围 本标准适用于有关汉语信息处理领域的科研、设计、生产、使用、维护、管理、教学和出版等方面。 2引用标准 GB2312信息交换用汉字编码字符集基本集 GB5271数据处理词汇 3遵循的原则和规则 3.1词条 词条是本标准为使用者提供的便于查检和参阅的基本单元。 3.2词条的组成 本标准的词条一般由下述儿部分构成: 索引号(不同语种文本都是一致的); a. b. 术语; 术语的缩写; c. d. 允许用的同义术语; 术语的英译名; f. 术语的英文缩写; 术语的定义; g. h. 以“例:"开头的一个或几个示例; i. 以“注:"开头的一个或几个注释(用以说明术语应用的特殊情况); 图、图表或表格。 3.3多义术语 国家技术监督局1990-02-01批准 1990-08-01实施 1. GB 12200.1—90 3.4缩写 有些术语具有常用的缩写,但在定义、示例及注释中,不采用这种缩写。 3.5符号的用法 3.5.1圆括号的用法 有些术语使用时,在不引起误解的情况下,可以省略掉其中一部分,可省略的部分为黑体字,并用圆 括号括起。在定义、示例和注释中,只用完整的术语。 有些术语后圆括号内的非黑体字,不是术语的组成部分,而是用来说明该术语的使用须知和特殊应 用形式或语法形式的。 3.5.2方括号的用法 当几个术语使用同一个定义格式(个别词不相同)时,可将它们合并在一个词条中。个别不相同的词 放在方括号中,表示可以替换方括号前面的词。方括号及其中的词在术语及定义中出现的顺序必须一 致。 3.5.3黑体字与星号 术语在定义、示例和注释中用黑体字印刷时,表示该术语已在本词汇的其它词条中给过定义,并且 只有它在另一词条中首次出现时才印成黑体字。 如果有两个已分别在不同的词条中给过定义的术语连在一起使用时,则用星号“*"将这两个术语 隔开。 3.6英译名 术语所对应的英文采用美国习用的拼法。 3.7,索引 本标准附有汉语索引和英文索引。索引包括本部分的全部术语。 根据汉语索引或英文索引,可查出术语正文的索引号。 4术语和定义 4.1基本术语 4.1.1一般术语 用计算机对自然语言的音、形、义等信息进行处理。即对学、词、句、篇章的输入、输出、识别、分 析、理解、生成等的操作与加工。 4.1.7.2汉语信息处理Chinese information processing 用计算机对汉语的音、形、义等信息进行处理,有时又称中文信息处理。 4.1.1.3汉字信息处理Chinese character information processing 用计算机对汉字表示的信息进行的操作和加工,如汉字的输入、输出、识别等。 4. 1. 1. 4 汉字输入,Chinese character input 利用汉字的形、音或相关信息通过各种方式,把汉字输入到计算机中去的过程。 4. 1. 1. 5 汉字输出 Chinese character output 将计算机内以数据形式表示的汉字在显示终端、印字机等设备输出的过程。 4.1.1.6多文种信息处理multilingual infarmationprocessing 在两种或两种以上语言*文字字符集编码体系基础上,实现对多文种信息的兼容处理。 4.1.1.7民族语言支撑能力Nationallanguage supportNLS(缩写) 使计算机具备能够处理民族语言的开发能力。 例:中文化,汉字化。 4.1.2语言文字 2 GB 12200.1—90 4. 1.2.1语言language 为了传递信息而使用的一组字符、约定和规则。 注:同 GB 5271.7的 07. 02. 01条。 4.1.2.2自然语言natural language 一种语言,其规则是根据当前流行的用法而不是用明确的形式规定的。 注:同GB5271.7的07.02.03条。 4.1.2.3人工语言artificial language 一种语言,其规则在使用前已明确地规定了。 注:同GB 5271.7的07.02.03条。 4. 1.2. 4 受限语言 restricted language 在词汇、句法,语义及语用等方面受到人为限制的自然语言的真子集。 4.1.2.5语言模型linguistic model 对自然语言的数学描述。分为生成模型、分析模型和识别模型三种。 4. 1. 2. 6 语音 speech sound 人类发出的能表达一定意义的声音。 4. 1. 2. 7 文字 script 人类记录和传达语言的书写符号系统。 4. 1.2.8 词 word 最小的能独立运用的语言单位。 例:大、国家、奥林匹克。 4. 1. 2. 9 词汇vocabulary 种语言中所有的词与固定词组的集合。 4. 1. 2. 10 语法grammar 语言的结构规则。自然语言的语法具有一定的民族特点和相当的稳定性。 4.1.2.11句法syntax 词或词组之间的组合规则。 4. 1.2.72 语义semantics 词或词组与它们的含义之间的关系。 4. 1. 2. 13 语用 pragmatics 词或词组与它们的解释和使用之间的关系。 4. 1. 2. 14 文本 text 语言的符号串,文字信息处理的对象。 4.1.2.15语言资料库corpus 文本的有序集合。各种分类、检索、综合、比较的基础。 4. 1. 2. 16 语言知识库languageknowledgebase 计算机所存储的语言知识的集合。它是计算机从语音、文字、词汇、句法、语义、语用等角度对 语言进行信息处理的基础。 4.1.2.17计算语言学computational linguistics 语言学的一个分支学科。它应用计算机技术来研究和处理语言文字,内容包括:字频和词 频统计、语音的识别与合成、机器词典的编篆、机器翻译、自然语言理解、计算机的自然语言 接口等。 4.1.3汉语和汉字 4. 1. 3.1 汉语 Chinese GB 12200.1--90 汉族的语言。中国境内主要的通用语言,也是国际通用语言之一。属汉藏语系。 4. 1. 3. 2 中文Chinese 特指汉语。 4.1.3.3现代汉语contemporary Chinese language 现代汉民族语言。包括它的主要地域分支:北方话、吴语、湘语、赣语、粤语、客家话、闽语等。它 的规范化语言是普通话。 4.1.3.4普通话Putonghua 现代汉民族共同语。它是规范化的现代汉语,以北京语音为标准音,以北方话为基础方言,以 典范的现代白话文著作为语法规范。 4.1.3.5 汉语拼音(方案)scheme of the Chinese phonetic alphabet,Pinyin 给汉字注音和拼写汉语*普通话*语音的方案。方案采用26个拉丁字母,有声母表和韵母表 及拼写规则,对声调符号和隔音符号的标记也有规定。 4. 1. 3. 6 汉字 Chinese character,Hanzi 记录汉语的书写符号系统。汉字也被其他一些国家或民族用作为书写符号。 4. 1. 3. 7 现代通用汉字 current commonly-used Chinese character 现代通行的记录现代汉语的书写符号系统。 例:(1)GB 2312。 (2)《现代汉语通用字表》。 4.1.3.8汉字属性attribute of Chinese characters 汉字本身所具有的音、形、义三方面的特征及附加的有关特征。 例:笔画、笔顺、部首、部件、汉语拼音方案、四角号码等。 4.1.3.9汉字属性字典Chinese character attribute dictionary 包括汉字部首、汉语拼音方案、笔画数、笔顺、使用频度、组词能力,文字结构、标准部件、标准 字形点阵码等属性及其电报码等相关信息的数据库或字典。 4.1.3.10简化字simplified Chinesc character 采用同音代替、改换声旁、草书楷化、偏旁简化类推等方法制定的一批笔画较少的汉字。这些 字取代了对应的笔画较多的汉字作为通行的正体。特指1986年重新公布的《简化字总表》, 共2 235 字。 例:后[筱],亿[],发[發],说[说],难[難]。 4.1.3.11繁体字 unsimplified Chinese character 被简化字代替的笔画较多的汉字。 例:専[专],聖[
GB-T 12200.1-1990 汉语信息处理词汇 01部分基本术语
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2023-02-24 10:18:08上传分享