中国科技术语

• 论文 • 上一篇    下一篇

从汉语拼音字符集被肢解说起——“名不正”遗患一例

许寿椿   

  1. 中央民族学院计算机系
  • 出版日期:1993-06-15 发布日期:1993-06-15

Starting with the Decomposition of Pin Yin Character Set

Xu Shouchun   

  • Online:1993-06-15 Published:1993-06-15

摘要: 一、汉语拼音字符集在编码标准中被肢解的情况
完整的汉语拼音字符集,按汉语拼音方案,应包括以下元素:
大、小写拉丁字母共52个。
带附加符号的ü、ê和,共4个。
带四声符号的韵母,a、o、e、ê、i、u、ü,每个对应有4个,再加大写形式,计7×4×2=56个。
zh、ch、sh和ng的缩写形式大、小写计8个。全部总计52+4+56+8=120。
国家标准GB 2312-80是国内使用最重要、最广泛的字符编码标准,其中收入了大、小写拉丁字母、最广泛52个及小写字母a,e,i,o,u,ü的调号形式及ü和ê共26个。标准收入总计52+26=78个。比全集字符少了120-78=42。缺少的字符中,zh、ch、sh、ng的缩写形式大小写8个是可以避免使用的,但其它36个一般是不可少的。这种基本字符缺失是被肢解的表现之一。被肢解的另一表现是,国家标准中,汉语拼音字符的顺序是散乱的,编码字符串的顺序与汉语拼音词条顺序不一致。汉语拼音字符在中国国家编码标准中尚且如此,在有关国际编码标准中情况只能更糟。
二、直接原因是“名不正”
上述汉语拼音字符集被肢解的直接原因是“名不正”。因为编码标准名为“信息交换用汉字编码字符集”。汉字编码自然主要解决汉字问题。汉语拼音字符通常不认为是汉字,能给予现今的安排已属“照顾”。编码工作的承担者在面对肢解的批评时,可以十分自然、十分有理的回答:国家下达的或者承担者申请的或只是“汉字编码字符集标准”。
三、如何正名
汉字是中国现行文字的主体,但汉字不是中国现在通行文字的全体或整体。对整体和部分应有区别。依笔者愚见,这整体不妨称“汉文字”或“汉文”。汉文应包括汉字、拉丁字母和阿拉伯数码及其它必不可少的符合。这类似于我们已经习惯使用的“日文”。日文中自然至少包括日本汉字和假名字母。据此。“汉字编码”可改为“汉文字编码”或“汉文编码”。“汉字系统”可改为“汉文字系”或“汉文字系统”。现今的汉字系统确实都十分冷落汉语拼音。在大多数系统中,输带调号的汉语拼音只能用国标码,比输汉字还麻烦。
四、名字背后的根本原因
现今中国通用文字的命名确实不是简单符号选择问题,象给初生儿起名那样。现状反映出拼音字母虽有法律地位,但作为中国文字的一部分、作为文字的性质还是没有取得社会普遍的公认。在汉字信息处理技术的突飞猛进前,汉语拼音有更被冷落的趋势,或者是产生了对汉语拼音方案修订的需要。