Help:中文维基百科的繁简、地区词处理


Help:中文维基百科的繁简、地区词处理 (正體)

Free Web Hosting with Website Builder

中文维基百科的繁简处理是中文维基百科的一项自动转换,目的是以电脑程式适应不同用字模式的差异。

中文维基百科的读者和编者来自世界各地。他们所需求或贡献的中文在性质上有许许多多的差异,像是简化字繁体字的差异、各地区词汇的差异、方言差异造成的书面语言的差异等等。MediaWiki将这些中文性质集合在一起,称为“用字模式”。可以说:一种用字模式就是某些中文性质的一个集合。

为了整合读者和编者多元的资源,也为了促进各方的交流,本百科并不规范读者或编者要使用何种用字模式,而是尝试以电脑程式的自动转换来适应这些差异,让编者可以以自己的用字习惯提供资料,也让读者可以选择所要的资料的用字遣词。

因此编辑和阅读中文维基百科时有特别的事项需要注意。事实上,就连本页尝试说明的事项,也有许多模糊之处。

目录

现行的自动转换

用字模式自动转换与维基系统本身的原理有关。大部分编者输入系统的文章内容,包括文字和维基语法等等,在此称为源码。维基系统通常会保留完整不变的源码,不作自动转换。读者使用维基系统时,并非直接阅读源码,而是由系统将源码即时自动转换成合适的形式,例如加上图片、超连结等等。而中文维基百科的用字模式转换就是众多自动转换程序中的一道。

自动转换电脑程式的能力范围不只是百科的条目文章,也包括页面分类等等页面。

大多数时候(默认情况),维基程序是根据转换表进行转换。有的时候,则是根据编者在源码中指定的方式作自动转换,包括不转换或是所谓“手动转换”

转换表就是一份列出各种不同用字模式之间,字与字或是词与词之间的对应关系的表格。目前只有管理员能编辑转换表。

所谓“手动转换”仍然是维基系统在读者使用时即时作的自动转换,但是这时程序是根据编者在源码中指定的方式为优先。

编者可以在编辑存盘后切换至其他用字模式查看情况。

用字模式选择

目前中文百科系统支持中文的zh(中文用字),zh-hans(简体用字),zh-hant(繁体用字),zh-cn(中国大陆用字),zh-tw(台湾用字),zh-hk(香港用字),和zh-sg(新加坡用字)七种用字模式。要支持更多的用字模式需要修改程序,如果有实际需要请在讨论页中提出。

文章主体繁体/简体选择(按优先级):

  • 所有人都可以在URL后加上&variant=zh-xxxx可为hans、hant、cn、tw、hk、sg。但这只对含有这一段的URL起作用;
  • 已登入的用户可以在个人参数里选择所谓“中文字体”;
  • 对匿名用户,系统根据用户浏览器要求的语言设置;
  • 如果以上设置都没有,则缺省为zh。

另外,不同的面板(Skin)都增加了到各个用字模式的链接,如现在MonoBook面板,链接是在文章的右上方。链接的名称可以通过MediaWiki:variantname-zh-tw/zh-cnMediaWiki:variantname-zh-tw/zh-tw等修改。如果要去掉某个链接,只需将相应的MediaWiki:variantname-zh-xx的页面内容设为disable。

界面的用字模式

界面的用字模式是独立于文章内容的用字模式的。除了中文的各种用字模式,还可以选择英文、法文等等语言。界面用字模式在已登入用户的个人参数里设置。

转换表

目前,系统默认的自动转换是根据数个“转换表”。转换表就是一份表格,记载各种不同用字模式之间,字与字或是词与词之间的对应关系。又叫系统默认转换表。目前只有管理员能编辑转换表,一般人可以向管理员提出申请。

参见:Wikipedia:繁简体转换请求。

系统默认转换表

系统默认的转换表存在于mediawiki程序中:

参见Wikipedia:简繁一多对应校验表及Wikipedia:繁简一多对应校验表。

定制转换表

管理员可以通过Mediawiki:Conversiontable/zh-hans, Mediawiki:Conversiontable/zh-hant, Mediawiki:Conversiontable/zh-cn, Mediawiki:Conversiontable/zh-tw, Mediawiki:Conversiontable/zh-sg, 及 Mediawiki:Conversiontable/zh-hk 来定制转换表。普通用户可以在Wikipedia:繁简体转换请求里提出修改转换表的建议。定制转换表可以用来修正系统默认转换表里的错误。这些页面可以象其他页面一样编写,但是描述转换关系需依以下格式:

-{
 皇后 => 皇后 ;
 波斯尼亚=>波士尼亞;
 萨拉热窝=>塞拉耶佛 //Sarajevo的翻译;
  ...
 }-

为方便显示,每条对应前可加星号(*)或井号(#),可用“//”加写注释,注意每条转换关系要以“;”终止。 Zhconversiontable/zh-cn页面用于向zh-cn的转换,Zhconversiontable/zh-tw页面用于向zh-tw的转换,等等。 这些页面更新后,其效果并不一定会即时显示出来,因为有些页面可能放在页面里。要看即时效果可以用编辑预览功能。

关于-{}-标记

例如:“张国荣曾在英国利兹大学学习。”所用的-{}-标记是[[利兹大學|-{zh:利兹;zh-hans:利兹;zh-hk:列斯}-大学]]

参见本页“禁止自动转换一段文字的标签”。

注意:该-{}-标记的设计意图是仅对文字进行手工转换,对链接、模板、图像、HTML属性等等进行手工转换可能会出错!可能会在以后支持对非文字信息进行手工转换,需要要对代码作较大的改动。

源码一般不做转换

大部分编者输入系统的文章内容,包括文字和维基语法等等,在此称为源码。维基系统通常会保留完整不变的源码,不会对源码作自动转换。

断词问题--自动转换程式很常见的问题

注意:中文维基百科不保证用字模式自动转换程式和内容的正确性。用字模式自动转换并不一定正确,甚至可以说是各种自动转换中问题特别多的。

转换程序使用最简单的“最大匹配法”进行转换。这会导致如下的错误:假设转换表中有一对应关系为

内存 => 記憶體

现对以下句子作转换

人体内存在很多微生物

基于最大匹配,系统会对“内存”进行转换,得到“記憶體”。整个句子将会被错误地转换成

人體記憶體在很多微生物

解决这个问题的根本方法是采用智能的分词匹配,将上述句子先拆分为

人体 内 存在 很多 微生物

然后再对每个词单独转换。

在具有这种智能的分词系统没有实现之前,要修正上述错误,可以有两种方法:

  1. 手工将涉及分词错误的词分开:“人体内-{}-存在很多微生物”
  2. 将涉及分词错误的多个词作为一个整体加到定制转换表里,如“体内存在 => 體內存在”。(注:目前只有管理员能编辑转换表,一般人可以向管理员提出申请。)

这就是分词的错误。阅读本百科时请多加注意。遇到可疑的部分可以前往编辑页面去查源码,或是多多留意不同用字模式之间的转换关系,以养成自行“反转换”的能力。

控制自动转换的代码

出于特殊的需要,可以用以下的语法设定不自动转换,或是“手工转换”

设定了所谓“手工转换”,其实维基系统仍然会在阅读者使用时根据系统默认转换表作自动转换,但是这时系统还会根据编者在源码中指定(增添)的方式作转换,并且将编者的方式优先排在转换表所列出的方式之前。也就是由编者自行增添转换方式。

常用的转换工具语法

  • 禁止自动转换一段文字的标签
    -{文字}-
    对于-{}-中的文字为转换规则(比如:“zh:中文”),但又希望保持原样,可以用:
    -{R|文字}-
  • 禁止自动转换一段文字整体的标签
    文-{}-字
    但分隔在-{}-两侧的文字仍作字词转换
    示范:舊-{}-金山,香港稱-{三藩市}-。
  • 手工转换一段文字的标签(局部性自行增添转换方式标签):
    -{zh:文字1; zh-hans:文字2; zh-hant:文字3; zh-cn:文字4; zh-tw:文字5; zh-hk:文字6; zh-sg:文字7}-
  • 全文手工转换标签(全面性自行增添转换方式标签):
    -{A|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 条目标题手工转换标签
    -{T|文字}-
    -{T|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 隐藏式全文手工转换标签(全面性自行增添转换方式标签):
    -{H|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 全文手工删除转换标签(从全局转换表中删除某个规则,在该页面中不再以该规则转换):
    -{-|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 转换规则描述标签(将该规则用人易读的方式显示出来):
    -{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;}-
  • 用字模式名称标签(将某种语言的代码转换成文字描述):
    -{N|zh-hk}-
  • 全文禁止自动转换
    __NOCC____NOCONTENTCONVERT__
  • 条目标题禁止自动转换
    __NOTC__ 或__NOTITLECONVERT__

条目标题

有时文章的标题不需要转换,如维基词典里的单字,或如《计算机世界报》之类的专有名词。在这种情况下,可以在文章中加一 __NOTC____NOTITLECONVERT__(注意前后都是两道下划线)来禁止对该文章标题的转换。

注意:这个标记要放在文章最开始的地方。

有时一篇文章的标题里,可能含有各地区认知不同或翻译方式差异很大的词汇,但因为某些理由不适合透过修改转换表来达成自动转换的目的,通常是因为一些常用字。如果贸然修改转换表,可能会造成更多地方产生错误。这种情况下可以有两种方法处理,我们推荐后一种:

  1. 在文章内使用标题转换来指明标题的正确显示:-{T|标题}--{T|zh:中文用字; zh-hans:中國大陸用字; zh-sg:新加坡用字}-
  2. 在文章内使用全文手工转换:-{A|标题}--{A|zh:中文用字; zh-hans:中國大陸用字; zh-sg:新加坡用字}-

实例:美国政治家John Kerry分别有“约翰·克里”、“約翰·凱利”与“約翰·克里”的不同译名,但如果在转换表中进行“克里<=>凱利”的互换,那么欧洲地名克里米亚克里姆林宫将会变成“凱利米亚”与“凱利姆林宫”的错误情况,为了避免制造更多的混乱,这情况比较适合在约翰·克里的条目中以手工转换标签修正标题与内文部份的相关译名。

注意:该标记仅仅是指明文章显示时对标题的转换,而不能自动处理链接时的转换。所以使用该标记时切记要通过重定向将各种用字模式的同一标题指向该文章。如约翰·凯利

全文禁止自动转换

有时通篇文章都需要不转换,例如讨论繁体/简体的文章。在这种情况下,可以在文章中加一 __NOCC____NOCONTENTCONVERT__(注意前后都是两道下划线)来禁止对该文章内容的转换。

注意:这个标记要放在文章最开始的地方。

自动转换的能力范围

本百科很多页面都可进行自动转换。但是仍有很多例外。例如最近更新页面Special:Recentchanges这样的特殊页面,就有一部分是不转换的。

参见Wikipedia:什么是条目。

页面分类

目前自动转换电脑程式的能力范围不只是百科的条目文章,也包括页面分类等等页面。因此除非特别指定,否则条目标题或是子分类标题的分类是根据经过自动转换之后的结果来分类。然而在此的自动转换也和别处不同,仅仅是简单的“繁简转换”,并没有进一步转换。

实例:美国政治家John Kerry分别有“约翰·克里”、“約翰·克里”与“約翰·凱利”的不同译名。译名的关系已加入转换表,而条目的源码中并没有特别指定不转换,所以阅读者使用维基系统时,并非直接阅读源码,而是由系统将源码自动转换成合适的形式。但是在页面分类中,的自动转换也和别处不同,仅仅是简单的“繁简转换”,并没有进一步转换。

在分类页Category:美国政治家之中,如果读者选择中国大陆用字新加坡用字模式,将看到约翰·克里的条目归类在“约”字之下的约翰·克里:

  • http://....Category:美國政治家&variant=zh-cn
  • http://....Category:美國政治家&variant=zh-sg

而选择台湾用字香港用字的读者则会看到这条目归类在正体的“約”字之下,然而条目名称是約翰·凱利:

  • http://....Category:美國政治家&variant=zh-tw
  • http://....Category:美國政治家&variant=zh-hk

子分类也是一样。

软件问题

2006年1月开始出现一个问题,可能与新版本的mediawiki有关。只要是分类名繁体对简体,条目或子分类就会从母分类消失,但是条目或子分类页经过任何编辑之后又会恢复,但系统下一次的link更新时又会消失。另外,分类是不可使用重定向功能的。

参看:页面分类。

内部连结、URL、重定向与搜寻

虽然源码一般不做转换。只有程序产生出来的页面有经过转换。然而读者收到的页面上,在维基系统之内的“内部连结”(不是外部链接或普通的URL,参见Help:链接),并不是由源码决定,是由程序产生出来的页面决定。也就是说:连结也会受到自动转换电脑程式影响。

同上例:从2004年3月8日2005年3月26日之前,维基百科上面只有约翰·克里条目,而没有台湾用字模式的約翰·凱利条目,也没有将“約翰·凱利”重定向至约翰·克里。这段时间如果在源码中有[[約翰·凱利]] 这段代码的话,那么:
    • 如果有人是用“不转换”模式来浏览的话,那么可以收到连往“约翰·克里”页面的“約翰·凱利”(系统会在用字模式自动转换之后自动加上连到“约翰·克里”的连结)。
    • 如果有人是用“不转换”模式来浏览的话,那么会收到有待编辑的“約翰·凱利”(因为系统直接连到当时什么都没有的“約翰·凱利”)。

用字自动转换电脑程式的能力范围不包括维基百科的URL与搜索功能。百科的系统不会对URL之中的汉字(有时是Punycode的代号形式),或是输入搜索功能的查询字串作用字转换。

同一例:这段时间,“約翰·凱利”无论是条目名称或是其相关的URL(例如 http://www.askmore.net/zh//約翰·凱利)都是空的。直到2005年3月26日,Zhengzhu将“約翰·凱利”重定向至约翰·克里約翰·凱利這個條目,以及相关的URL才有内容。

重定向页的内容不会受到自动转换电脑程式影响。

同一例:Zhengzhu所加入的重定向代码如下:
#REDIRECT[[约翰·克里]]
这并不受自动转换电脑程式影响。请看http://....title=約翰·凱利&redirect=no&variant=zh-tw

本百科的条目名称搜索(“进入”)不会受到自动转换电脑程式影响。因此条目名称完全是一个用字模式的条目还需要一个重定向页才能直接搜索。但是如果重定向页的“名称”和已存在的条目名称完全一样,只是繁简用字模式不同,则需要特殊做法来制造重定向页。

本百科的条目全文搜索(“搜寻”)不会受到自动转换电脑程式影响。

本百科之外的搜寻引擎Google可能有自己的自动转换电脑程式。目前已知搜索时会作简单的繁简转换。当需要建立繁简重定向页的时候,建立新条目的方式往往无法奏效。

如何建立繁简重定向页

登录的用户可以使用移动页面功能来建立繁简重定向页。比方说,假设现在有个名为“沈阳”的条目,而你想要建立从“瀋陽”到“沈阳”的重定向页,那么应该要进行两次移动:

  1. 将“沈阳”移动到“瀋陽”。
  2. 将“瀋陽”移动到“沈阳”。

其结果将是“沈阳”的条目维持原状,而“瀋陽”成为指向“沈阳”的重定向页。

第二次移动看似多余,但会带来两个好处:

  • 对该条目历来参与者的尊重 —— 未经讨论贸然改变一个条目的名称是不恰当的行为。
  • 一旦条目名称改变,原本指向该条目的连结虽会以重定向的方式指向正确的条目,但长期来说所有重定向连结都应该用直接连结取代。修改所有这些连结会增加维基百科的维护成本(尤其是其他语言的维基百科也有可能透过跨语言连结连向这些页面),比起此种额外负担,将条目保持原有名称会是更有效率的作法。

编辑一般文章时的注意事项

  • 文章以及分类的标题必须是全部为简体或繁体字,如果标题繁简混杂,例如“中國历史”,或是(常见的)“台灣”,那么系统将不能作正确的转换。
  • 在以前许多事物有繁简体两个版本的不同文章来介绍。现在需要通过手工将这样的文章合并起来。具体请参看Wikipedia:繁简处理。
  • 当需要建立繁简重定向页的时候,建立新条目的方式往往无法奏效,这时请参考Wikipedia:重定向#中文繁简体问题。

参看

帮助文档
Help:中文维基百科的繁简、地区词处理 讨论页
Help:进阶字词转换处理 讨论页
Help:繁简处理/技术方案 讨论页
Help:繁简处理/转换原理(介绍转换表的原理)  
字词转换处理
Wikipedia:字词转换处理(一般性对繁简体、地区词的政策)
Wikipedia:繁简处理 讨论页 存档 1 2 3 4 5 6
Wikipedia:地区词处理  
Wikipedia:简繁一多对应校验表  
Wikipedia:繁简一多对应校验表  
相关讨论/投票
Wikipedia:繁简体转换请求  
Wikipedia:字词转换错误修复请求  
Wikipedia:地区词转换候选  
已完成的讨论/投票
Wikipedia:投票/增加“香港繁体”转换标签 讨论页
Wikipedia:马新简体标签显示民意调查 讨论页
Wikipedia:投票/页顶自动转换标签 讨论页
Wikipedia:关于改革字体、地区词转换功能的调查 讨论页
主要相关模板
Template:noteTA 全文字词转换,可加入公共转换组
Template:CGroup 公共转换组,对同一类题材或同系列的字词作转换
Template:地区用词 在条目起首对不同地区的用词作介绍
不再维护的旧页面
Wikipedia:Unihan繁简体对照表  
Wikipedia:Unihan繁简体对照表/简繁一一对应表  
Wikipedia:Unihan繁简体对照表/简繁一多对应表  
Wikipedia:Unihan繁简体对照表/繁简一一对应表  
Wikipedia:Unihan繁简体对照表/繁简一多对应表  
Wikipedia:中文繁简体对照表
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
讨论页
Wikipedia:简繁词表  
Wikipedia:繁简词表  
Wikipedia:繁简分歧词表(介绍转换表本身的内容)  
Wikipedia:繁简处理/简繁单字  
Wikipedia:繁简处理/简繁词汇  
Wikipedia:繁简处理/繁简单字  
Wikipedia:繁简处理/繁简词汇  
Mediawiki 系统转换表
MediaWiki:Conversiontable/zh-cn 讨论页
MediaWiki:Conversiontable/zh-hans 讨论页
MediaWiki:Conversiontable/zh-hant 讨论页
MediaWiki:Conversiontable/zh-hk 讨论页
MediaWiki:Conversiontable/zh-sg  
MediaWiki:Conversiontable/zh-tw 讨论页






Why are we here?
All text is available under the terms of the GNU Free Documentation License
This page is cache of Wikipedia. History