相比五笔这样的形码,拼音作为声码门槛更低。更可怕的是,拼音的背后,是一整个九年制义务教育体系。
01五笔是怎么来的1978年12月,全国汉字编码学术交流会在青岛召开。这次「青岛会议」聚集了来自中科院和各地高校的众多学者,他们讨论的问题在如今看来难以想象:如何把汉字输入电脑?在如今这个搜狗讯飞横行天下,年轻人扣字速度快到飞起的年代,很难想象,在七八十年代的中国,中文输入成了一项「卡脖子」的技术。原因也很简单,汉字实在是太多了。1980年发布的国标GB2312字集里,包括了6763个汉字,而2005年发布的国标GB18030-2005字集收录了高达70244个汉字。
国标GB18030字符集而且和西文字母不同,汉字并没有一个类似「ABCD」之类的排序方法。如何把多而无序的汉字和键盘上的按键一一对应,在当时并没有一个现成的解法。这也使得汉字在信息处理,尤其是信息输入上,远远落后于西方国家。1984年洛杉矶奥运会,当法新社记者看到中国记者还在手写新闻发稿,直接阴阳怪气了一番:7000名记者,只有中国人还在用手写!当时学界不乏「汉字落后论」的声音,有些极端学者甚至认为在计算机时代,汉语拼音文字将取代方块字,成为中文的出路。「汉字拼音化」,「拼音代替汉字」甚至 「一语双文」的论调层出不穷。有些地方的学校甚至出现了「语文全拼音化」教学。站在计算机技术起飞的前夜,汉字输入问题必须得到解决。会上众多专家教授都提出了不同的意见,主流的看法是:开发一款专门为汉字输入而设计的键盘。当时的汉字专用键盘有三种方案,一种是整字大键盘。也就是把几千个汉字,按照部首分区,放在一块像桌子一样大的键盘上,哪里要用点哪里,so easy!
如果一块键盘不够,还可以放第二块,第三块。这个方案优点很突出,没有学习成本,很直接。缺点也很突出,除了简单直接以外都是缺点:不能盲打,速度极慢,每分钟能输入10个汉字就是极限了。而且一块键盘造价几千块,设备大,成本高,不实用。第二个方案是仿照日本人设计「主辅键键盘」。这个方案,由一块主键盘和一块辅键盘构成。辅键盘负责定分区,主键盘按对应的按键就能输入分区中特定的汉字。可以看出,这个方案这是对上面那个的一个改进,减小了设备体积,可以双手打字,速度也快了很多。但造成了一个巨大的bug:打字员需要记住每个汉字处在哪个分区,排序在哪个位置。哪怕只有几千个汉字,都是巨大的学习成本。这个方案,基本上没有普及的可能性。第三个方案,则是汉字激光照排之父王选院士提出的256键「中键盘」方案。
王选这个方案把所有汉字拆成了1000多个笔画和部首,把它们放在256个按键上。只要按照结构组合这些「零部件」,就能像拼乐高一样拼出想要的汉字。中键盘第一次用到了「拆字」的方法,也就是汉字编码类型中的「形码」。后来的五笔、郑码以及此前朱邦复在1976年所创制的仓颉输入法,使用的都是「形码」。
仓颉输入法相比前两套系统,中键盘方案显然是先进了很多,但还远远称不上完美。毕竟英文的QWERTY键盘,只有26个字母键,键位少,够轻便,而且已经在国际上通用了。如果可以,谁不想直接用现成的东西啊,奈何汉字确实太特殊了。就在青岛会议召开的同一年,河南南阳科委的王永民也加入了汉字输入法开发的工作。
王永民和当时的主流想法类似,他一开始也希望制造一款专属于汉字的键盘。为了实现这一目标,王永民把《现代汉语词典》中,12000多个汉字逐一分解,进行分类统计,归纳出了600多个组字单位,王永民将它们命名为字根。并且根据出现频度,选出了其中最常用的125种。在他的努力下,他把中文专用键盘的键位从256个,压到了188个,又压到了62个。到1982年,王永民开发出了36键方案。而且这一切都是在没有计算机,纯人工统计的情况下开发出来的。这时,摆在他面前的,有两条路。一条是推广36键方案。这套方案在1982年已经上机成功,作为当时最先进的方案,其实已经有普及的可能性了。另一条路则是回头继续研究,压缩键位,压到完全适配26键的QWERTY键盘。要知道,键位压缩得越少,重码,也就是一组按键对应的不同文字就会越多,而选字会极大影响效率,到了这一步,再往下压缩已经很难了。但是王永民选择了更难的一条路。为了降低重码,经过将近一年的研究,王永民发明了「末笔字型识别码」,将每个字最后一个笔画编码定位,将重码率降低了一个数量级。1983年8月28日,王永民发明的「五笔字型」宣告诞生。五笔的厉害之处,首先就在于「快」。因为引入了「横竖撇捺折」五种笔画的分区,使得用户最多只需要按5次按键,就能锁定唯一的汉字。没有重码,意味着用户不再需要挑选想要的字词,经过练习,甚至可以实现双盲输入,也就是不看键盘也不看屏幕打字。
而且相比大键盘和中键盘,五笔的键位少,学习成本更低。许多80后可能还会背「五笔口诀」,什么「王旁青头兼五一, 土士二干十寸雨」。而熟练的五笔用户甚至不需要这些,依靠肌肉记忆就能输入。其次就是五笔完美兼容QWERTY键盘,不需要专门再开发新的硬件。在五笔发布之初,因为不需要专用键盘,甚至被学界认为是「崇洋媚外」,「食古不化」,但市场和用户是用脚投票的。1984年,国家科委和国防科工委先后发布「红头文件」向全国全军推广五笔字型。1986年,五笔字型经由外交部进入联合国,也在同年以数十万及美元的价格,将使用权出售给美国DEC公司,成为中国第一个出口美国的电脑专利技术。此后IBM,微软,苹果陆续购买专利使用权。而东南亚国家如马来西亚和新加坡,更是至今还在广泛使用五笔。在国内,五笔也成为一代中国人最早接触和学习的汉字输入法。在电脑还不普及的90年代,使用电脑被认为是一种职业技能,国内有大量的培训班,而五笔就是这些培训班最重要的授课内容。当年的许多国产电脑,键盘上不仅有英文字母,也标注了五笔字根,方便学习。但就是这样一个「当代活字印刷术」,为何却沦为拼音输入法的手下败将,成为了「小众」的代名词和时代的眼泪呢?02五笔为何不敌拼音1995年,智能ABC输入法诞生。
这是一款经典的拼音输入法,用过智能ABC的,应该都是和我一样的老网民。但经典归经典,说实话,和现在的拼音输入法比起来,当年的智能ABC和智能没有半毛钱关系。它的存在,就是提供了一个庞大的字词库,让用户查找拼音对应的文字和词语。而它的词库其实也缺乏实用性,因为那个年代的词库主要是从官媒和各类报刊杂志的报道中统计高频词得来的,因此这样的词库其实非常不符合普通人的语言需要,也没有联网更新词库的方式。现在拼音输入法必备的联想输入,模糊音,常用词汇记忆等功能,在当时更是天方夜谭。
作为一名智能ABC十级选手,在长期的使用中,已经养成了一种记忆:那些经常用到的字,我都会记住在第几页。而且因为词库不更新,有时必须想点笨办法提高打字效率。比如当我想打「喜茶」,最快的方式是分别打出「喜欢」和「茶叶」,再删掉多余的字。总之,当时的拼音输入法在效率上,和五笔是远远不能相提并论的。拼音输入为什么效率低?一个点就是我们前面提到了,拼音的重码率非常高,不考虑音调只有400多种组合,而这些组合要对应的是成千上万个汉字。这意味着拼音不止要打字,还要选字,往往是输入容易找字难。尤其是某些读音,对应着大量多音字,例如zhi、chi、shi。如果你的名字里有个yi字,恰巧还是个生僻字,而你只会用拼音输入法,那么恭喜你,国标GB18030字集里,光是读yi音的字就有407个。打字一时爽,找字火葬场。在王永民提出的形码设计三原理,第一原理就是「相容性原理」。也就是重码率要低,确保编码的唯一性。最好达到2%以内。拼音里面大量多音字同音字,效率显然是不及格的。为了改善效率,后来又有了双拼输入。不过只要是基于拼音,重码就是解决不了的问题。此外,五笔字型在按键排布上是经过设计的。
从上方这张图上就可以看出来,同样是基于QWERTY键盘,五笔打字在两只手的负荷率上,基本是平衡的。但拼音输入就是右手忙死,左手放假。而且如果你用标准的打字法,会发现左手最强壮的食指好像没什么事做,但是力量最小的小指反而负荷很大。简单来说,拼音打字在人体工程上也不是很科学。当然,这个锅还是要丢给QWERTY键盘,这个键盘的键位设计本来就不合理,这个我后面还会展开讲。所以说,从效率和科学性来说,五笔是远超拼音输入法的存在。真正改变了拼音输入法尴尬局面的,一是靠内存,二是靠互联网。作为一种极其依赖字词库的的输入方式,拼音输入法需要大量的存储空间来存储字库。在80年代,电脑内存按K来计算,存储空间按MB来计算的时代,根本存不下足够大的字库。
直到90年代,主流电脑的硬盘容量已经达到了GB级,内存也达到了数十MB的水平,这才有了越来越庞大的拼音字库。字词库更大了,能够匹配的词汇也就多了,效率就提高了。而互联网带来的则是更大的变化。2006年,搜狗输入法横空出世。它在基本原理上和智能ABC,紫光拼音没有太大的区别,唯一的不同是它通过搜狗的搜索引擎,极大地扩展了词库。用户输入的拼音不再是与本地词库对应,而是与整个中文互联网的内容匹配。除此之外,搜狗还包括了整句输入、联想输入功能。要知道,整句打字的效率要比一个字一个字打高多了。而且很多时候你不用打完整的拼音,系统就会帮你补完。此外,它还会记录你常用的高频词,随着你的使用,它会越来越顺手。这些功能的加入,让拼音输入法的效率直接起飞。搜狗输入法一年内抢下了90%的市场份额。即使后来腾讯百度谷歌也纷纷加入战局,搜狗的市场份额也没掉到70%以下。但客观一点来说,这些输入法在本质上,并没有让拼音成为更精确、重码率更低的输入方式。它只是用大数据,大词库和联网功能,强行提高了匹配效率。这就像我听过的一个关于程序员的笑话:产品性能不够,怎么办?一个程序员会有两种选择,一是猛干六个月写一个很复杂的程序,提高系统的性能。另一个是花半年休假,在家睡大觉。等你一觉醒来,更NB的硬件已经降价了,直接换硬件就能解决问题了。而拼音真正相比五笔的优越之处,在于它是一种门槛更低的输入方式。汉字是字形,字声,字义三位一体的文字,这三者中,我们往往是先理解了字声和字义,也就是先学听说,再学读写。而且我们的思维也往往是以语音方式进行的,当我们想事情的时候,脑袋里本来也会有一个声音。
相比五笔这样的形码,拼音作为声码门槛更低,也更符合我们的本能。更可怕的是,拼音的背后,是一整个九年制义务教育体系。拼音输入法并不是没有学习门槛,只是很少有人需要专门去学习拼音。从小学一年级第一堂语文课开始,我们就在学习aoeiuü了,一直到高考,拼音就没离开过语文学习。以中国目前90%以上的九年制义务教育巩固率,拼音对这一代中国年轻人来说,几乎就是出厂设置。有意思的是,五笔的用户群中,反而有不少60后,他们没有接受过完整的拼音教育,但能读会写。这批中老年人用起五笔反而更加顺畅。只是,在中国越来越完备的教育体系和庞大的拼音使用人口面前,五笔毫无胜算。为什么互联网公司愿意花大力气开发拼音输入法,也是因为用户基数大,商业上具备想象空间,巨头们才愿意在输入法这样的边缘市场投入人力物力。到了移动互联网时代,拼音已经真正意义上坐稳了江山。03九宫格vs全键盘还记得上学的时候,男生女生都喜欢买大一号的校服,袖子至少要能把手藏住。一半是为了把耳机藏进去,上课听歌,一半是为了把手机塞在袖子里,上课时候互相发短信。只有我,没有女生和我发短信,我上课时候玩手机都是为了看NBA的文字直播。那个时代虽然没有大屏智能机,但因为手机有九宫格的实体按键,几乎每个同学都熟练掌握盲打技巧。而随着智能机的普及,当年用惯了九宫格的我们,又开始用回了全键盘。手机输入法的历史,还要从90年代讲起。1993年,诺基亚发布了第一款支持短信发送功能的GSM手机。
T9比搜狗更早地使用了预测性文本技术,也就是我们前面所说的常见字联想输入功能,而且它不仅支持拼音,还支持笔划输入。这套技术让手机打字有了质的飞跃。90年代末,T9输入法就开始广泛被三星、诺基亚等手机厂商使用。也就是我们俗称的「九宫格」。我记得当年九宫格最火的时候,还有很多相关的暗号,例如962464代表「我爱你」,647449633代表「你是我的」。可能这就是属于80/90后的土味情话了吧。而全键盘和手机的结合,要到1996年了。那年,诺基亚发布了一款名为9000的手机,也是世界上第一款全键盘手机。
它有一个类似笔记本电脑的设计,外部来看就是一个普通手机,翻开上盖,里面就是一个大屏幕和一整个QWERTY键盘。作为一台定位商务人士的掌上电脑级别的产品,诺基亚9000不仅支持收发邮件,而且具备浏览器功能,支持网上冲浪。搁96年,这简直就是黑科技一般的存在了。而全键盘,在很长时间里,也被认为是商务手机的标配。后来的黑莓、Palm和诺基亚的E系列,主打的都是商务属性,大量机型也都配备了全键盘。此外,侧滑全键盘也流行过一段时间,比如诺基亚的一代机皇N97。直到2007年,iPhone的发布,才改变了这一状况。很长时间里,苹果对虚拟全键盘执念都很深。一直到2013年的iOS7,苹果才开始支持九宫格,而第二年的iOS8,苹果才开放第三方输入法。但是因为相当长的时间里,主流智能机厂商,都将全键盘设置为默认输入方式,导致在移动互联网时代,全键盘输入最终成为了主流。这也造成了一个旷日持久的争论,到底是九宫格效率高,还是全键盘效率高?接下来的话,是我个人的私货,各位权且一听。我看过很多说法,两边各有拥趸。用九宫格的人说,九宫格单手操作更方便,并且误触率更低,所以更容易盲打。用全键盘的人就会反驳,现在手机屏幕够大,没那么容易误触了,双手打字用全键盘显然更精准,效率当然也会更高。这时候用双拼的人就会说,如果你经过练习,习惯了双拼,双拼才是速度最快的。而五笔的遗老们则表示,都是渣渣,都不如五笔迅速。但我发现,大多数人争的,根本不是效率。我更喜欢用九宫格,仅仅是因为我是90后,在智能机出现之前,就已经在诺基亚上把九宫格用得如火纯青了。