中国学术期刊网 » 论文 » 文学论文 » 汉语言文学论文 » 基于语料库语言学的台湾汉字简化特点和影响因素论文正文

基于语料库语言学的台湾汉字简化特点和影响因素

中国学术期刊网【汉语言文学论文】 编辑:天问 北京大学学报(自然科学版) 2016-06-05基于语料库语言学的台湾汉字简化特点和影响因素论文作者:王博立 史晓东 陈毅东 任文瑶 阎思瑶,原文发表在《北京大学学报(自然科学版)杂志》,经中国学术期刊网小编精心整理,仅供您参考。

【关键词】: 语料库语言学论文 台湾 汉字 汉字简化 俗字
【摘要】: 论文采用语料库语言学的研究方法,论证台湾存在汉字简化的现象,并分析台湾汉字简化的特点和影响因素。首先,通过爬取台湾的新闻媒体、政府网站和博客,建立台湾汉语语料库。然后,借助语料库统计数据,论证台湾民间存在对简笔俗字的使用偏好,即台湾存在汉字简化的现象,并进一步分析台湾汉字简化的若干特点。最后,讨论台湾汉字简化的影响因素,包括大陆简体字、汉字编码、中文输入法等。

【作者简介】: 王博立、史晓东、陈毅东、任文瑶、阎思瑶,厦门大学智能科学与技术系。
【作者单位】: 厦门大学智能科学与技术系;
【基金】:教育部专项“简繁汉字智能转换系统” 国家科技支撑计划(2012BAH14F03) 国家自然科学基金(61303082,61005052) 教育部博士点基金(20130121110040)资助
【分类号】:TP391.1
  
  由于政治上的对立和分隔,海峡两岸的文化交流在20世纪80年代之前几乎完全停滞,致使两岸在语言文字的使用习惯上形成一定的差异,表现在字音、拼读系统、标点符号、书写系统、词汇、语法以及中文排写等多个方面,其中以书写系统的差异最为明显。两岸书写系统的差异常被概括为汉字字形上简体字与繁体字(或台湾所言“正体字”)的差异。但本研究发现,实际上两岸在字形方面的差异十分复杂,台湾亦存在汉字字形简化的现象。我们收集了大规模的台湾语料,建立台湾汉语语料库,借助该语料库,采用定性与定量相结合的研究方法,研究台湾的汉字简化现象及其影响因素。

  1 相关概念界定

  本节对研究台湾汉字所涉及的简体字、繁体字、俗字、汉字简化等概念做出界定,以便下文的讨论。

  1) 简体字:指大陆推行《简化字总表》后的中文书写系统。

  2) 繁体字:与“简体字”相对,指由历史上流传下来,目前仍在台湾、香港等地广泛使用的传统汉字1。

  3) 俗字:亦称“俗体字”“俗写”“简写字”“手写简笔字”“手头字”“破体字”“小写”等等,指流行于民间,有别于官方认定的“正体字”的另一种字体[1],可以认为俗字是在民间约定俗成、广泛使用的异体字,且通常具有较简单的字形。由于俗字的这两个特点,在汉字简化过程中,往往采用俗字作为简体字形,是大陆简体字的重要来源。台湾“教育部”于1979年公布《标准行书范本》,梳理了台湾民众习惯使用的简笔俗字。

  4) 汉字简化:指在汉字的实际使用中,逐渐以笔画较简的字代替笔画较繁的字,即在整个社会范围内,一部分繁体字的使用频率逐渐降低,而与之对应的笔画较简的字使用频率逐渐提高。

  2 语料库建设

  我们从互联网收集、[转载自中国学术期刊网 http://www.qikanc.com,请保留此标记。]爬取,并加以整理,得到一个规模为17亿字的台湾汉语语料库。目前该语料库已经在互联网公开2,并且规模仍然在不断扩充。如表1所示,依据来源将该语料库划分为8个子语料库,语料内容涵盖政府公文、新闻和博客3种不同类型的文本,语料的时间跨度为1991年至2014年。本研究主要使用发布时间早于2013年12月31日的语料。

  值得注意的是,语料中夹杂着少数用字错误:一些媒体或博主发布的内容系原始简体文本经低质量的简繁自动转换系统转换后得到;在博客语料中甚至存在一定数量的大陆简体文本。

  3 台湾汉字简化的表现与特点

  与大陆行政指令驱动下的汉字简化运动不同,台湾的汉字简化主要表现为在汉字的实际使用过程中大量使用民间俗字。本节利用语料库资源,采用统计方法证明台湾存在汉字简化的现象,并讨论台湾汉字简化的特点。

  3.1 民间俗字的大量使用

  语料库的统计数据显示,台湾的民间俗字被大量使用。相比于“国字标准字体”3中收录的正体字,或台湾“教育部”《重编国语辞典修订本》4中规定的规范用字,台湾媒体在一些情况下更喜欢采用民间的简笔俗字,尽管这些俗字只有异体字的地位。

  表2例举几个俗字在新闻媒体中的使用情况。其中,“台”本身是正字,但其作为正字的用法在现代文中极为少见5,大部分情况下,“台”字以“臺”的异体字身份出现(如“台灣”“台北”),并且从表2中“吧台”一项可以看出,媒体中也出现将“台”用作“檯”的简体字的情况6。《标准行书范本》中,“銹”是“鏽”的手写简笔字,《重编国语辞典修订本》仅收录“鏽”而无“銹”,而台湾“教育部”《异体字字典》7认为“銹”为“鏽”之异体。但从表2可以看出,“銹”字在媒体中有相当频率的使用。类似地,“厘”是《标准行书范本》中“釐”的手写简笔字,从表2可以看出,“厘”字在媒体中也有相当频率的使用(特别是用做“公厘”时)。

  由上述分析可知,台湾媒体在用字上存在舍弃繁难正体字而使用简笔俗字的现象。这种对简笔俗字的使用偏好正是台湾汉字简化的表现。与大陆行政指令自上而下的汉字简化不同,台湾这种源于简笔俗字的渐变的汉字简化,更尊重传统的语言文字和民间的用字习惯,带有草根特色,符合语言发展固有的渐变性和规律性,但正异字并存的情况也造成一些用字不规范的问题。

  3.2 台湾官方对俗字使用的保守态度

  与大陆的汉字简化历程相比,台湾官方在汉字简化问题上显得比较保守和消极。国民党政府曾于20世纪30年代和50年代两次研究制定汉字简化方案,但均因政界和学界保守势力的反对,最终无法实施[2]。前文提及的《标准行书范本》也仅仅是手写行书规范8,台湾“教育部”并未对其进行大力推广,对汉字简化的影响不大。

  相反的是,民间对简笔俗字的使用偏好对台湾官方的用字产生了较大影响。图1对比台湾“教育部”语料9和人间福报语料上“台灣”“台大”“台南”3个词语中简体“台”字出现的相对频率。从图1可以看出,台湾官方也会使用简体“台”来代替正字“臺”,且有相当大的比例。但与媒体相比,台湾官方对简体字的使用明显较为保守,这很可能与其强调推广“正字”或“国字”的主张有关。

  3.3 正体字与异体字的混用

  简笔俗字的大量使用造成正体字与异体字并存,进而产生许多用字习惯混乱、用字不规范的现象。例如,“台”为“臺”的简笔俗字,“檯”的简笔俗字为“枱”,但在表2所列举的“吧台”一词中,出现以“台”代“檯”的现象,不符合用字规范。

  在这样的情况下,甚至出现一些正体字与异体字倒置的现象。例如,根据《常用国字标准字体表》《重编国语辞典修订本》和《异体字字典》,“晒”为正体,“曬”为异体,但从表3的统计数据可以看出,无论是博客(无名小站语料)、媒体,还是官方(台湾政教语料),均明显倾向于使用“曬”(尽管“晒”为正体且字形明显比“曬”简单)。类似的情况还有“癡”与“痴”“薦”与“荐”等。这种对繁难异体字的使用偏好,可能有两个方面的原因:其一是台湾社会对大陆简体字的排斥心理,其二是中文输入法的选字。后文将分别对二者进行讨论。

  3.4 汉字数量繁多

  大陆的汉字简化,其指导思想是从形体和数量两方面对汉字进行精简[3],被简化的繁体字不再使用,目前基本上实现了这一目标。而台湾的汉字简化,主要是形体上的精简,并无数量上的精简,大量使用简笔俗字的同时,仍然使用原来的繁体字。

  表4的统计数据显示,在大陆的新华网语料10中,字频最高的3888个汉字能覆盖99.9%的新闻文本,而相同的覆盖率在台湾msn语料中则需要字频最高的4101个汉字;大陆新华网语料中字频最高的100个汉字能覆盖37.99%的新闻文本,而台湾msn语料中字频最高的100个汉字只能覆盖35.33%的新闻文本。这表明,当表示相同总量的信息时,台湾人需要使用比大陆人更多的汉字,说明繁体汉字对于信息的传播和知识的普及存在一定的阻碍,简化汉字的确有助于汉语学习,在一定程度上减轻了学生的学习负担。

  4 台湾汉字简化的影响因素

  在长期的使用过程中,台湾汉字的字形和使用习惯受到一些外部因素的影响。大陆简体字、汉字编码、中文输入法等因素都在一定程度上影响着台湾的汉字简化。

  4.1 大陆简体字

  随着大陆国际影响力的日益增强和海峡两岸经济文化交流的不断深入,大陆简体字对台湾用字习惯的影响也日益加深。在台湾的一些旅游景点,为了吸引大陆游客,不少商家在宣传材料上使用简体字[4]。语料库的统计数据也反映了大陆简体字的影响。

  表5列举一些大陆所用简体字在台湾语料中的出现情况,从一个侧面反映了大陆简体字对台湾用字习惯产生的影响。此外,台湾一些简笔俗字的使用范围有所扩大,与大陆的使用习惯趋同。例如,“台”字本为“臺”的简笔俗字,“檯”的简笔俗字本为“枱”。但表2中的“吧台”一项将“台”作为“檯”的简笔字,并且“梳妝檯”“寫字檯”等词也存在类似的情况。台湾这种简笔俗字使用范围的扩大,正是受到大陆用字习惯的影响,因为大陆简化字中将“台”“臺”“檯”“颱”合并为“台”。

  对于来自大陆简化字的影响,台湾社会也出现一种抵触心理,认为繁体字(即台湾所称正体字)代表中华传统文化,应尽量避免使用简体字,保护和推广繁体字。据报道,台湾领导人马英九多次强调“正体汉字”是“中华文化的精髓”,提倡使用正体汉字,“不要为了招揽(大陆)观光客,而在招牌或文宣上使用简体汉字”[5]。3.3节提到的台湾出现个别对繁难异体字的偏好,很可能是在这种社会心理驱动下而刻意为之的结果,认为相较于简笔的正体字,使用繁难的异体字更能体现传统文化。

  4.2 汉字编码

  在当今信息化时代的背景下,汉字编码是影响台湾用字习惯的一个重要因素。Big5码是过去台湾地区最通行的计算机汉字编码方式,根据《常用国字标准字体表》《次常用国字标准字体表》等汇编而成,收录汉字13000多个,但未收录被视为异体字的部分民间俗字,如“着”“堃”“煊”“喆”“銹”等,导致这些民间常用的俗字无法在计算机中正常显示[6]。

  近年来,不少台湾软件改用字库规模更大的国际标准Unicode进行编码,但其中亦存在不少问题。例如,图2中的汉字在Unicode中被认为是同一编码不同字体的差异[7],而图3中的汉字却被认为是不同编码的差异。其实从字形来看,这两组字的差异都不大,区分是否应该采用同一编码或不同编码的标准不明确。

  造成Unicode汉字编码混乱的直接原因是两岸及日、韩等国家向Unicode联盟提交各自的汉字编码方案,在合并时存在一些重复[8]。涉及大陆与台湾的重复编码,根本原因是两岸采用的印刷字体11在一些构字部件上存在差异。台湾的“国字标准字体”基本上沿用古籍所用“旧字形”;而大陆在整理汉字时依据“从俗从简”的原则,于1965年修订《印刷通用汉字字形表》,称为“新字形”[9]。不少新旧字形的差异被误认为是简繁关系,错误地将其作为两个汉字对待,在Unicode中赋予不同的编码。实际上,这种字形差异是同一汉字在不同字体下表现出的差异,应当赋予相同的编码12。
【汉语言文学论文】图文推荐
【汉语言文学论文】范文排行
【北京大学学报(自然科学版)杂志】论文参考