中国科技术语

• 探讨与争鸣 • 上一篇    下一篇

从化学新造字谈计算机外字和标准化

许寿椿   

  1. 中央民族大学计算机系 北京 100081
  • 出版日期:2001-12-15 发布日期:2001-12-15

Computer Processing of Newly Coined Characters and Their Standardization

Xu Shouchun   

  • Online:2001-12-15 Published:2001-12-15

摘要: 记得从上个世纪50年代求学时候起,就不时读到语言学家停止造新汉字的呼吁。把这当作汉字规范化的大事。汉字信息处理计算机化以来,汉字开始成为技术标准化关注的对象。现行汉字编码标准基本采取与英文一样的“一字符一码位”方式,造新字就更显得和这种标准格格不入。“停止造新字”看来似乎已是必然趋势。不久前读到石磬先生文(科技术语研究,2001年2期,下称石文)。石文以外行人易懂的方式解释了为什么有这么多化学新造字。读后大有茅塞顿开之感,引起了我的许多思考。我不是语言学家,也不是化学家,只是一个长期从事计算机专业教学的教师,参加过若干中文信息处理方面的工作。现就汉字标准化与化学新造字有关问题发表一些议论。
关于化学新造字
据苏培成先生文(科技术语研究,1999年3期,下称苏文),从清末江南造船局到1964年,化学新造汉字已达647个。1998年1月化学名词审定委员会又给105~109号元素新造了五个汉字。苏先生正是面对这种无休止造新字的势态发出呼吁的。苏文虽短,但集中反映了语文界的主流观点。这些观点是:“汉字字数繁多,而且数目不定:‘出生不报,死亡不销’。这是造成汉字难学难用的一个主要原因,给我国教育和科技发展带来严重负面影响”。汉字规范化要求四定,“四定首先是定量”。要实现现代汉字定量,就必须停止造新字,不再复活死字。强调“现代汉语词汇有很强的复音化倾向”。大量使用复音词,便可避免造新字。还建议采用汉语拼音转写科技术语。苏文最后呼吁化学家克服习惯势力的阻挠和抵抗,从中国语文现代化大局出发,停止造新字。
石文是我读到的第一篇鲜明地正面论述化学新造汉字必要性、合理性、必然性的文章。他用外行人易懂的具体例子说明:“由于化合物的组成复杂,不用新字会使表达它们的新复合词音节变得很长,很难为大家接受”。“造了新字才使以这些新字组合的复音词化学术语简单、科学、合理”。石文认为汉语新词的规律有复音化和多音词缩合化的两向性,只强调复音化是片面的。石文认为,新化合物种类繁多,层出不穷,对于不断出现的化合物母体,不得已造新字,是不可避免的。石文中上述论述十分自信,但其关于造新字“砆”作为fullerenes的汉字名时,则显得颇为犹豫和无奈。
关于计算机外字
汉字的计算机处理,首先要用二进制数码表示每个汉字。这就是汉字编码。中国现今应用最广的编码标准是GB2312,颁布于1980年,收录了6763个汉字字符(包括少量非字偏旁)。这6763个以外的汉字,对GB2312就叫集外字,简称外字。计算机字库芯片和有关汉字软件都按技术标准批量生产制作。这批量的规模是数万,数十万,数百万……对这批量生产的计算机,外字都是不能使用的,计算机不认识它们。现今汉字应用软件中,为解决外字问题,提供了补字造字软件。用这种软件造字时,由操作员决定给一个外字什么代码,并具体设计其字形。这种外字处理方式是操作者的个体行为。只有造字者使用的计算机才认识这个外字。在网络环境下,外字无法以代码方式在网上传输交流。这就是为什么许多专用汉字系统(由专项经费支持开发的、带有大量自造外字的)无法上网的原因。这种外字处理方式,对单台计算机,对系统内的若干计算机,主要用于排版打字时,有一定使用价值。即使在这种情况下,新造的计算机外字和集内字仍有很大差别。这些差别至少有:①新补造的字,无法受字形控制符控制。现行造字软件通常只能按一种字体设计字形。你造了个宋体字,在排版时,用控制符让它变成楷体或隶书,都是不行的。只有集内字才可以。②新补造的外字,输入法难于和集内字统一,常常只能用区位数码输入。③补造的外字无法与集内字统一排序处理。④最重要的还是这种文件无法以代码方法与其他计算机交换。可见,这种新造的外字仍然是三等公民,是私生子,就有许多麻烦要你处理。为了解决GB2312所收汉字不够用的问题,国家后来又相续颁布过几个大字符集编码,收入汉字两万或更多,但外字问题一直没有解决,反而又增加了一个多编码并存并用,混乱不统一的问题。
化学新造汉字,要考虑音义的合理、贴切,常不得不造出个计算机外字。这种外字尽管可以得到许多语言学家的同意,尽管可能获得有关部门领导的承认,但只要不被纳入国家技术标准并明令颁布实施,它就仍然是计算机外字。用现行造字软件新造了它,它也依然是三等公民,是私生子,而汉字编码国家标准的修订又远非那么容易。
外字难题的由来
仅从具体技术上讲,是由于汉字沿用了或误用了适用于英文的编码方式(一字符一码位)和单纯的线性编辑操作。英文是封闭的小字符集,字符数量少而又明确确定。而汉字是开放性大字符集,字符数量庞大而又字无定数,且有不断的造字需求。按“一字符一码位”方式,只能先编码基本汉字,而后扩充,再扩充。这就自然产生了外字问题。人们手写时没有外字问题,是因为手写时可随时拼组出所需要的汉字。这样拼组则是非线性的叠加操作。英文已积累的大量文字软件中基本上都是线性操作。20多年来外字问题未能很好解决,有许多原因值得分析,有许多教训值得记取,本文无法展开讨论。宏观地或简单地说,这是汉字计算机化处理发展初期,由于进展迅猛和缺少经验,不小心落入了英文之巢窟而难于自拔。
回顾汉字问题的历史是有意义的。在农业时代,手工操作是文字处理的主要特征。这期间汉字技术代表了世界先进水平。造纸和印刷术是对世界的巨大贡献。在工业化时代,二三百年中,文字处理技术的主流是机械化。机械打字和以机械打字为收、发端的电报传讯是这个时代最典型最普及的文字工具。汉字在机械化面前,遇到了无法克服的困难。姗姗来迟的汉字机械打字机和汉字四码电报,在与英文的比较中,突出显现了汉字的繁难、笨重、低效,难于普及。这深深刺痛了中国的志士仁人。这个时代又恰巧是中国逐渐沦为半殖民地境遇的时代。救国图强的中国文化人迁怒于汉字,把改革乃至抛弃汉字当作救国之策。上个世纪50年代,新中国成立之同年同月,中国文字改革协会成立,不久,走拼音化道路的主张被提出来。而六七十年代英文成功实现了计算机化处理。此时的汉字肩负着机械化和计算机化的双重重负,艰难、无望、甚是悲凉。直至80年代 ,仍有语言学家断言,计算机是汉字的最终掘墓人。但历史却出人意料,短短的十余年间汉字竟然神奇地实现了计算机化处理。90年代初中国出版印刷业全面告别铅与火,大批作家、记者换笔潮,表明汉字计算机化初步成功。人们开始明白,文字的技术属性优劣,是个历史性概念。汉字的无法真正机械化和汉字能够自动化、智能化都是历史事实。但二三百年的“山穷水尽”和十余年间的“柳暗花明”,毕竟来得太突然。这神奇的发展初期,除少数成果是政府和有关机构计划支持者外,大量的应该说是有志者自主地,乃至即兴地创造。那令人眼花缭乱,无所适从的数百种汉字输入法之涌现,真可以看作是汉字复兴大业之开台锣鼓。汉字计算机外字问题是这迅猛发展中的一个具体失误,又由于技术标准的强制性、稳定性,问题的彻底解决就必然有些麻烦。
新世纪,是彻底解决外字问题的时候了
计算机网络正在中国迅速普及。网络环境下外字问题显得更为严重。外字无法上网传输。许多花巨资开发的汉字专用系统和相关文献资料成了信息高速路旁的堆积物。外字问题的彻底解决,还将带动其他难题的解决。上个世纪的最后20多年,具汉字功能的计算机实现了从无到有,实现了初步优选和普及。积20多年的技术和经验,是该实现全汉字完整完满解决的时候了。
全汉字完整解决方案
这里简要通俗地描述一个可以彻底摆脱外字困扰的技术方案。它是真正适用汉字这种开放性大字符集的。它可以统一处理全部汉字。这里的处理,包括编码表示、字形表示、存储、输入、编辑操作及传输。这里的全部汉字包括已知的所有汉字,和那些可能造出而尚未造出的汉字。它同时应该实现繁简体字一体化处理。大陆与港澳台地区繁简体汉字的不同使用,是政治对立隔绝的历史形成的。而计算机化过程中分别采用了不同编码标准则事实上加强了繁简分立,给汉字统一规范制造了新的障碍。全汉字完整解决方案应实现繁简汉字一体化处理,为统一规范的汉字应用提供良好的技术支持。该方案的具体技术要点如下。
1.使用综合编码方案。被编码的汉字字符包括3类。a类为常用汉字(包括繁简体,约数千,占实用字次的95%以上)。b类,为除a类外的其他各种可能的构字部件(偏旁、部首、字根之类)。c类为结构类型控制符(三五十左右)。全部编码字符数千足矣。
2.在上述第1条的基础上,在传统字处理线性操作基础上,增加拼组汉字功能。对a,b类汉字字符,直接用单一编码表示、调用。对其他汉字使用如下定义式描述:<结构类型符><汉字字符串>。<结构类型符>由单个c类字符充当。<汉字字符串>是a类和b类字符组成的串。计算机软件自动地依定义式拼组成单个汉字。下面举例说明。为便于排版,避免另造外字,下面的例子中暂且用黑体的“刂、二、川”表示左右结构、上下结构、左中右结构。105~107号元素所选用的三个汉字可分别表示为字符串:刂金杜,刂金喜,刂金波。
105和107号元素名还可以三分表示:川金木土,川金波。这种情况下,一篇文稿的计算机化文本将有两个:a.源文本,其中直接用<结构类型符><汉字字符串>描述未编码汉字。b.目标文本,其中不再出现定义式。定义式由计算机软件自动拼组化为单个汉字。人工手写的文稿,可以直接写成目标文本,也可以使用定义式。使用者个人随意。
3.设计统一的输入法。键盘上对c类的结构类型符逐一分配码位。未编码的汉字即外字,输入码一律是结构类型符打头的键盘符号串。
4.字形库分永久性字库和动态字库。永久性字库存已编码字符(包括a,b,c3类)的字形信息。动态字库存按定义式拼组生成的字形信息。为了保证拼组字形的高质量,前述b类字符中可能包括同一个部件有显著差异的不同变体。如部件“木”可有上木(森之上部),下木(梨之下部),左木(树之左部),右木(淋之右部)等。按此法安排,前述b类字符的数量将由数百增至二三千。计算机软件只依靠定义式,无需其他信息便可自动选用相应部件,拼组出符合印刷质量的字形(质量稍差,似亦无防大体。拼组字常只占甚小比例)。只要拼组用部件设计了不同字体(宋、黑、楷、隶等),就可以拼组出相应字体的拼组字。此时的外字字体便可按排版软件中字体控制符变化。拼组字库能显著缩小字库所需存储量。为了减少永久性字库消耗,有人把a类常用汉字字形也用拼组方式形成。本人见到过全拼组式的汉字系统,其印字质量和速度均可满足使用需求。
5.仿照王竹溪先生在《部首大字典》首先提出和使用的汉字排序法,可以实现内外字的统一排序。王竹溪先生选取数十个部件称为汉字字母,每个汉字都按规则拆分为汉字字母串(该串即汉字之排序码)。再利用英文词典序相同方式给出汉字排序。外字的排序码由软件按定义式自动生成,和已编码字的排序码相似。
6.此种系统中,利用源文本文件,使用拼组定义式的外字以及它和编码字符的任意组合,都可以作为检索单元作检索。
7.源文本文件可以上网传输。目标文本可以在任意终端上自动拼组生成。
上面描述的方案并非只是笔者的空想。自上世纪80年代以来,已有多人以不同方式、不同规模实现过,推出过商品化产品。只是由于多种原因,未能成功,或未能成为主流方式。与强制性的国家现行技术标准(尽管是陷入ASCII巢窟中的)的不一致是导致恶运的重要原因之一。但据知,现今某些排版系统内部,如某日报编辑部与全国多个印刷点之间,便采用本文所描述的定义式方式实现异地外字代码的传输。客观地说,ASCII编码体制以及后来的有关汉字标准,并没有公然地、赤裸裸地否定排斥拼组式操作,甚至一直留有拼组活口。最早的ASCII编码国际标准便提到可以用拼组方式生成带附加符号的字母(如头上带双点的U)。现在看来,这活口是英文给它的同宗小兄弟(使用多种附加符号的欧洲拉丁字母系文字)留下的画饼充饥之画饼、望梅止渴之梅果罢了。后来的汉字有关标准所留拼组的活口,则是给汉字用户留下的画饼和望梅而已。但需知,我们忍耐饥渴,等待真正可食之饼,可食之梅的时候,正是有关利益集团大赢其利的黄金时光呀。
再说可行性与困难
数学公式、化学反应方程和结构式,乐谱(简谱、五线谱),服装设计图,动画都已成功实现了计算机化处理。其中的非线性叠加拼组操作,无一不比汉字拼组来得复杂多样。各类程序语言和应用软件中,源文件和目标文件的使用已是普遍常规。因而可以相信,上述具拼组功能的全汉字完整处理方案不存在严重技术困难。有人担心,这种系统将给随意滥造汉字提供方便。我想,这不会比现行英文中拼写错更为严重。英文词的打字输入几乎没有限制。英文WORD软件的拼写检查,要在机内存储庞大字典和拼写规则库存。对查出的可能差错以下划绿红线方式提示操作者。前述拼组汉字系统,由于定义式都以结构类型符打头,庞大字典是不需要的,效率只能高,不会更低。有人担心拼写不唯一(如字的二分和三分)会造成检索失误。此类问题不难通过具体规则限制(只要规定最小拆分或最大拆分即可)。至于目标文件视觉长度和源文本不一致则纯属枝节,不足为虑。
本人认为主要的困难不在于技术方面,而在于学术思想,管理体制,编码技术标准体制,有关机构、集团的经济利益之权衡和学术领导地位之思虑,等等。另一方面的因素是这种拼组式全汉字系统是否有强烈社会需求。这种社会需求也与广大汉字用户对有关问题的性质、缘由、严重性、解决可能性的认识或知识有关。笔者撰写本文就是想和术语学界、语文学界等有关各界作一沟通交流。如果饥渴尚可忍耐,或饥渴者不众,那便也只有等待了。本文前面提到的拼组式全汉字系统将为汉语文化圈统一规范提供良好的技术支持。把现今被不同编码标准所强化、复杂化了的繁简对立变为繁简一体,混然一炉,使繁简体的使用成为可以由操作者个人选择的平常事。周有光先生在多种场合呼吁,迅速缩小由政治地域等历史原因造成的汉语文不统一(不统一表现为三种汉语文:普通活+简化字的大陆语文,普通话+繁体字的台湾语文,广东话+繁体字的港澳语文)。此项工作需要国家高层决策者的支持。但没有各有关方面专家的理解支持,也不会有国家高层决策者的理解和支持。期待名词委在自己的能力所及发挥积极影响。
涉及术语用字的几个具体建议
①中国术语数据库已经颇具规模。希望有关专家撰文在本刊报告计算机外字实际使用情况(数量,处理方法等)。②石先生关于造“砆”字的思考中,反映了“停止造新字潮流”给命名用字带来的强大限制。希望专家们考虑,假设有了一个方便可用的拼组式汉字系统时,你想造那些字?这些新字对术语的简单科学合理性贡献如何?
结语
历史已经表明,汉字有悠久的历史和顽强的生命力,汉字有独特的品格和许多优点。汉字确实无法实现真正的机械化,在与英文机械化的较量中是惨痛的失败者。但计算机技术特别是软件技术,为汉字提供了全新舞台。20多年的实践证明汉字对信息化、智能化新技术有极好的适应性。现存的汉字处理中的难题(外字的问题或不能完整表达问题,排序问题,输入法优选问题,字库庞大问题,多编码并存混乱问题,汉字计算机操作训练与汉字基础教育脱节甚至矛盾的问题,……)都不是不可克服的。其中许多问题,恰恰是盲目追随ASCII之误导才造成的。我相信,新世纪汉字的完整、完满的解决方案终将实现。