<sup id="fzbrb"><ins id="fzbrb"><small id="fzbrb"></small></ins></sup>

              <sup id="fzbrb"></sup>
              <dl id="fzbrb"><menu id="fzbrb"></menu></dl>
              <tr id="fzbrb"><video id="fzbrb"><rp id="fzbrb"></rp></video></tr>
              互联网时代的文字错讹
              <

              互联网时代的文字错讹

              来源:光明日报2019-03-03

              近日,在网络媒体上读到一篇学术论文,其中引用《大唐新语》“终南捷径”的典故说:“(卢)藏用指终南山谓之曰:‘此中大有佳处,何必在远!’(司马)承祯徐答曰:‘以仆所观,乃仕宦快捷方式耳。’”继而搜索“终南快捷方式?#20445;?#30334;度汉语”里竟然收有这一词条,释义依据?#35789;恰?#22823;唐新语》。“终南快捷方式”显然是“终南捷径”之误,这个错讹在许多严肃的学术著作里屡见不鲜,叶圣陶先生1914年发表过一篇文言小说《终南捷径》,也被有些研究者误作《终南快捷方式》。

              究其原因,这一错误的产生与汉语词汇的繁简转换有关。由于计算机专有名词shortcut在内地和港台的翻译不同,内地译作“快捷方式?#20445;?#28207;台译作“捷径?#20445;?#22240;此在对这类译?#24335;?#34892;繁简转换时,?#35789;?#19978;下文不涉及翻译用语,?#19981;?#20986;现繁体字“捷徑”变成简体字“快捷方式”的现象。

              时?#24403;弦导荊?#22312;审读各类论文时发现,除了单个汉字繁简转换不对应的常见错误(比如“皇后”误成“皇後”、“千里”误成“千裏?#20445;?#25972;个?#35270;?#36716;换时发生的错讹也大量存在,其中“终南快捷方式”这类由繁转简的讹变相对较少,更多的是由简转繁时带来的讹误,如:资料→數據、信息→資訊、申请项目→申請專案、数字化→數?#25442;?#26356;有甚者,如海内存知己→海記憶體知己、卜算子→卜運算元、途中奔驰→途中賓士、鲁隐公元年→魯隱西元年。“资料”变成“数据”、“信息”变成“资讯”还并不影响文意,但“海内存知己”变成“海记忆体知己”就会让一般读者感到莫名其妙。这些错误的发生可归因于内地与港台对同一事物的称名不同,尤其涉及译名分歧最多,于?#21069;?#35789;繁简转换时就会出现错误的关联。类似现象,江庆柏先生《电脑自动转换中文简繁字产生的问题》(《古籍整理出版情况简报》2014年第1期)一文已有揭示,但未引起足够重视,各类出版物中繁简转换错误层出不穷。

              实际上,互联网时代的文字错讹,除了繁简转换之误,还有不少新的衍生类型。例如,因电脑、手机输入法产生的错讹。现今最常用的是拼音输入法,由于输入拼音后在候选项里会有多组备选字词,在选取时因操作不慎或者判?#40092;?#35823;,会导致文本中音近讹字的出现。同样,使用形码输入法,如五笔字型输入法,以及?#20013;词?#20837;法等,会导致形近讹字的出现。

              此外,还有一类非常特殊的错讹,因九宫格输入而产生。九宫格是手机拼音输入法最常用的一种键盘?#23395;鄭?#23558;ABC……XYZ等26个字母分布在8个键位上,这样一来,比如拼写“早上”和“晚上”是完全相同的键位,在备选词里又毗邻,容易导致“早”“晚?#34987;?#29992;的情况,这类不涉及汉字形音义关系的错误关联在传统书写中?#25442;?#21457;生。

              再如,因OCR(Optical Character Recognition,光学字符识别)产生的错讹。OCR的原理就是通过扫描纸本等载体上的文字,确定其形状,然后根据计算机程序进行匹配识别转译成字符。简而言之,就?#21069;?#22270;像上的文字转换成文本字符。OCR软件在许多领域应用广?#28023;?#22914;果识别的对象本身是规范的排版文本,识别率非常高,人工校读也简便易?#23567;?#20294;是在涉及古籍文本时,就容易发生形近而讹,加之人工校读不仔细,会遗患无穷。比如几年前,在全国各地售卖糖炒栗子的包装上,常会看到板栗简介中援引《诗经》的“树之棒果?#20445;?#26834;果”是“榛栗”之讹,通过查检发现,这可能是某篇学术论文在OCR时发生的错误,导致网上关于板栗的简介以讹传讹,最终传播到了大众生活中。

              汉语文献的文字讹误类型,以形近而讹和音近而讹为主,从文字的书写主体即人自身来看,形近而讹主要与视觉判断有关,音近而讹主要与听觉判断有关。

              ?#25910;?#22312;以往的研究中还发现,书写对象的特点?#19981;?#24102;来一定的影响。比如汉字中形声字数量庞大,尤其进入楷书阶段以后,形声字比例大增,到了南宋已占汉字的90%以上,大量形声字的存在,使得同一声旁且形旁相近的文字最易发生讹混。如?#25226;睿?#26954;)”与?#25226;錚?#25562;)?#20445;源印?#26140;”声,而形旁“木”与“?#23567;毕?#36817;,整个字形尤为相似,且读音相同,字义也多存相关性,于是在书写与传抄过程中,极易发生异变与混同。汉语中的讹字、异体字、通假字的孳生往往与形声字这个特性有关。如今电脑拼音输入法产生的错误,也是这一历史问题的?#26377;?#19982;变体,有时?#27492;?#25805;作不慎,其实是因为受到形声字这一特性的干扰。再者,汉字的结构特点与书写习惯?#19981;?#24433;响文字的正误,如古人直行竖写,就会发生《战国策?#20998;小按?#40857;言”被写成?#25353;?#35723;”的错误。

              可见,传统文字错讹的原因主要在两个层面:一是书写主体(书写者)判?#40092;?#22833;,一是书写对象(汉字、文本等)特性干扰,但是前文例举的错讹“终南快捷方式”、“早”“晚?#34987;?#29992;、“树之棒果”等,已超出了这两个层面,它们有个共同之处,都和新型的书写媒介有关。无论是繁简转换,还是九宫格输入、OCR文字识别,错误的发生,都在这些中间?#26041;凇?#36825;让我们意识到,互联网时代书写主体和书写对象之间还存在着一个机器智能的媒介,新型文字错讹本质上是机器智能带来的副作用,要化解机器智能的不足和局限,只有不断提升?#38469;?#24037;具性能,并?#20197;黽尤?#24037;干预。

              面对新型文字错讹,总体而言,要大力发展信息?#38469;酰?#22914;人工智能、大数据、构建知识关联来解决新时代的新问题。以前文例举的几种错讹类型而言,如繁简转换,可以在word软件里关闭“转换常用词汇?#20445;?#21482;按字转换,不按词转换。由于一个简体字对应多个繁体字,由繁转简时,一般较少出现讹误,这种方法能够有效规避“終南捷徑”转成“终南快捷方式”的问题。但是由简转繁,这种方法又会带来不少繁简单字不对应的错误,必须辅以严格的校对。另一方面,需要通过更新?#38469;?#25163;?#35859;?#20915;词汇在转换过程中带来的关联错误,比如在计算机中建立繁简?#26102;恚?#24182;标明具体对应的时间与地域信息,如是中国古代的繁体字词,还是港台当代的繁体字词,进而构建历时性的繁简词库与共时性的繁简词库。至于九宫格输入、OCR文字识别等新型错讹,目前除了?#38469;?#38761;新,比如基于大数据的聚类分析,恐怕还得依靠人工校正。

              当然,最彻底有效的规范手段,是加强语言文字知识的普及教育,从文字使用者?#23884;?#26641;立规范与责任意识,防患于未然。

              《光明日报》( 2019年03月02日12版)


              相关新闻
              >
              精?#38450;?#30446;
              ?#35753;?#25512;荐
              新闻 |  ?#25910;?/a> |  资讯 |  百事通

              华龙网 www.cqnews.net 触屏版 | 电脑版

              Copyright ?2000-2015 CQNEWS Corporation,
              All Rights Reserved.
              首页 | 新闻 原创 视听 | ?#25910;?/a> 评论 ?#25215;?/a> | 区县 娱乐 财经 | 旅游 亲子 直播 | 文艺 教育 科普 ?#24067;?/a> | 房产 健康 汽车 | 取证 鸣家 会客厅 | 万花瞳 百姓故事 3c家居
              • 站内
              站内
              分享
              新浪微博
              腾讯微博
              微信
              QQ?#21344;?/span>
              QQ好友
              手机阅读分享话题

              互联网时代的文字错讹

              2019-03-03 07:30:00 来源: 0 条评论

              近日,在网络媒体上读到一篇学术论文,其中引用《大唐新语》“终南捷径”的典故说:“(卢)藏用指终南山谓之曰:‘此中大有佳处,何必在远!’(司马)承祯徐答曰:‘以仆所观,乃仕宦快捷方式耳。’”继而搜索“终南快捷方式?#20445;?#30334;度汉语”里竟然收有这一词条,释义依据?#35789;恰?#22823;唐新语》。“终南快捷方式”显然是“终南捷径”之误,这个错讹在许多严肃的学术著作里屡见不鲜,叶圣陶先生1914年发表过一篇文言小说《终南捷径》,也被有些研究者误作《终南快捷方式》。

              究其原因,这一错误的产生与汉语词汇的繁简转换有关。由于计算机专有名词shortcut在内地和港台的翻译不同,内地译作“快捷方式?#20445;?#28207;台译作“捷径?#20445;?#22240;此在对这类译?#24335;?#34892;繁简转换时,?#35789;?#19978;下文不涉及翻译用语,?#19981;?#20986;现繁体字“捷徑”变成简体字“快捷方式”的现象。

              时?#24403;弦导荊?#22312;审读各类论文时发现,除了单个汉字繁简转换不对应的常见错误(比如“皇后”误成“皇後”、“千里”误成“千裏?#20445;?#25972;个?#35270;?#36716;换时发生的错讹也大量存在,其中“终南快捷方式”这类由繁转简的讹变相对较少,更多的是由简转繁时带来的讹误,如:资料→數據、信息→資訊、申请项目→申請專案、数字化→數?#25442;?#26356;有甚者,如海内存知己→海記憶體知己、卜算子→卜運算元、途中奔驰→途中賓士、鲁隐公元年→魯隱西元年。“资料”变成“数据”、“信息”变成“资讯”还并不影响文意,但“海内存知己”变成“海记忆体知己”就会让一般读者感到莫名其妙。这些错误的发生可归因于内地与港台对同一事物的称名不同,尤其涉及译名分歧最多,于?#21069;?#35789;繁简转换时就会出现错误的关联。类似现象,江庆柏先生《电脑自动转换中文简繁字产生的问题》(《古籍整理出版情况简报》2014年第1期)一文已有揭示,但未引起足够重视,各类出版物中繁简转换错误层出不穷。

              实际上,互联网时代的文字错讹,除了繁简转换之误,还有不少新的衍生类型。例如,因电脑、手机输入法产生的错讹。现今最常用的是拼音输入法,由于输入拼音后在候选项里会有多组备选字词,在选取时因操作不慎或者判?#40092;?#35823;,会导致文本中音近讹字的出现。同样,使用形码输入法,如五笔字型输入法,以及?#20013;词?#20837;法等,会导致形近讹字的出现。

              此外,还有一类非常特殊的错讹,因九宫格输入而产生。九宫格是手机拼音输入法最常用的一种键盘?#23395;鄭?#23558;ABC……XYZ等26个字母分布在8个键位上,这样一来,比如拼写“早上”和“晚上”是完全相同的键位,在备选词里又毗邻,容易导致“早”“晚?#34987;?#29992;的情况,这类不涉及汉字形音义关系的错误关联在传统书写中?#25442;?#21457;生。

              再如,因OCR(Optical Character Recognition,光学字符识别)产生的错讹。OCR的原理就是通过扫描纸本等载体上的文字,确定其形状,然后根据计算机程序进行匹配识别转译成字符。简而言之,就?#21069;?#22270;像上的文字转换成文本字符。OCR软件在许多领域应用广?#28023;?#22914;果识别的对象本身是规范的排版文本,识别率非常高,人工校读也简便易?#23567;?#20294;是在涉及古籍文本时,就容易发生形近而讹,加之人工校读不仔细,会遗患无穷。比如几年前,在全国各地售卖糖炒栗子的包装上,常会看到板栗简介中援引《诗经》的“树之棒果?#20445;?#26834;果”是“榛栗”之讹,通过查检发现,这可能是某篇学术论文在OCR时发生的错误,导致网上关于板栗的简介以讹传讹,最终传播到了大众生活中。

              汉语文献的文字讹误类型,以形近而讹和音近而讹为主,从文字的书写主体即人自身来看,形近而讹主要与视觉判断有关,音近而讹主要与听觉判断有关。

              ?#25910;?#22312;以往的研究中还发现,书写对象的特点?#19981;?#24102;来一定的影响。比如汉字中形声字数量庞大,尤其进入楷书阶段以后,形声字比例大增,到了南宋已占汉字的90%以上,大量形声字的存在,使得同一声旁且形旁相近的文字最易发生讹混。如?#25226;睿?#26954;)”与?#25226;錚?#25562;)?#20445;源印?#26140;”声,而形旁“木”与“?#23567;毕?#36817;,整个字形尤为相似,且读音相同,字义也多存相关性,于是在书写与传抄过程中,极易发生异变与混同。汉语中的讹字、异体字、通假字的孳生往往与形声字这个特性有关。如今电脑拼音输入法产生的错误,也是这一历史问题的?#26377;?#19982;变体,有时?#27492;?#25805;作不慎,其实是因为受到形声字这一特性的干扰。再者,汉字的结构特点与书写习惯?#19981;?#24433;响文字的正误,如古人直行竖写,就会发生《战国策?#20998;小按?#40857;言”被写成?#25353;?#35723;”的错误。

              可见,传统文字错讹的原因主要在两个层面:一是书写主体(书写者)判?#40092;?#22833;,一是书写对象(汉字、文本等)特性干扰,但是前文例举的错讹“终南快捷方式”、“早”“晚?#34987;?#29992;、“树之棒果”等,已超出了这两个层面,它们有个共同之处,都和新型的书写媒介有关。无论是繁简转换,还是九宫格输入、OCR文字识别,错误的发生,都在这些中间?#26041;凇?#36825;让我们意识到,互联网时代书写主体和书写对象之间还存在着一个机器智能的媒介,新型文字错讹本质上是机器智能带来的副作用,要化解机器智能的不足和局限,只有不断提升?#38469;?#24037;具性能,并?#20197;黽尤?#24037;干预。

              面对新型文字错讹,总体而言,要大力发展信息?#38469;酰?#22914;人工智能、大数据、构建知识关联来解决新时代的新问题。以前文例举的几种错讹类型而言,如繁简转换,可以在word软件里关闭“转换常用词汇?#20445;?#21482;按字转换,不按词转换。由于一个简体字对应多个繁体字,由繁转简时,一般较少出现讹误,这种方法能够有效规避“終南捷徑”转成“终南快捷方式”的问题。但是由简转繁,这种方法又会带来不少繁简单字不对应的错误,必须辅以严格的校对。另一方面,需要通过更新?#38469;?#25163;?#35859;?#20915;词汇在转换过程中带来的关联错误,比如在计算机中建立繁简?#26102;恚?#24182;标明具体对应的时间与地域信息,如是中国古代的繁体字词,还是港台当代的繁体字词,进而构建历时性的繁简词库与共时性的繁简词库。至于九宫格输入、OCR文字识别等新型错讹,目前除了?#38469;?#38761;新,比如基于大数据的聚类分析,恐怕还得依靠人工校正。

              当然,最彻底有效的规范手段,是加强语言文字知识的普及教育,从文字使用者?#23884;?#26641;立规范与责任意识,防患于未然。

              《光明日报》( 2019年03月02日12版)


              ?#35013;?#30340;用户,“重庆”客户端现已正式改版升级为“新重庆”客户端。为不影响后续使用,请扫描上方二维码,及时下载新版本。更优质的内容,更便捷的体验,我们在“新重庆”等你!
              看天下
              [责任编辑: 张义 ]
              发言请遵守新闻跟帖服务协议
              精彩视频
              版权声明:
              联系方式:重庆华龙网集团有限公司 咨询电话:60367951
              ①重庆日报报?#23548;?#22242;授权华龙网,在互联网上使用、发布、交流集团14报1刊的新闻信息。未经本网授权,不得转载、摘编或利用其它方式使用重庆日报报?#23548;?#22242;任何作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:华龙网?#34987;頡?#26469;源:华龙网-重庆XX”。违反上述声明者,本网将追究其相关法律责任。
              ② 凡本网注明“来源:华龙网”的作品,系由本网自行采编,版权属华龙网。未经本网授权,不得转载、摘编或利用其它方式使用。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:华龙网”。违反上述声明者,本网将追究其相关法律责任。
              ③ 华龙网及其新重庆客户端标明非华龙网的确定来源或未标注华龙网LOGO、名称、水印的文字、?#35745;?#38899;频、视频等稿件均为非原创作品。如转载涉及版权等问题,请及时与华龙网联系,联系邮箱:[email protected]
              附:重庆日报报?#23548;?#22242;14报1刊:重庆日报 重庆晚报 重庆晨报 重庆商报 时代信报 新女报 健?#31561;?#25253; 重庆法制报 三峡?#38469;?#25253; 巴渝?#38469;?#25253; 武陵?#38469;?#25253; 渝州服务导报 ?#21496;又?#25253; ?#38469;?#28909;报 今日重庆
              云南快乐十分号码遗漏

                          <sup id="fzbrb"><ins id="fzbrb"><small id="fzbrb"></small></ins></sup>

                          <sup id="fzbrb"></sup>
                          <dl id="fzbrb"><menu id="fzbrb"></menu></dl>
                          <tr id="fzbrb"><video id="fzbrb"><rp id="fzbrb"></rp></video></tr>

                                      <sup id="fzbrb"><ins id="fzbrb"><small id="fzbrb"></small></ins></sup>

                                      <sup id="fzbrb"></sup>
                                      <dl id="fzbrb"><menu id="fzbrb"></menu></dl>
                                      <tr id="fzbrb"><video id="fzbrb"><rp id="fzbrb"></rp></video></tr>
                                      >