文/ML编辑部
人类大脑并非逐字阅读,而是通过首尾字、词形和上下文进行整体预测。乱序文本并非中文独有,英语等语言同样存在。这种“自动纠错”机制提高了阅读效率,但也容易导致“眼滑”误读,且难以阻挡现代AI的破解。
故事要从一位叫 Penn. 的美国网友说起。
最近,这位身在美国的美女在小红书上发了个帖子,表示想找人练练中文,顺便交流一下脱口秀段子。没想到,评论区的热评第一并没有教他中文,而是给他来了一场猝不及防的“认知霸凌”。
一位中国网友回复道:“弟们兄,们我把顺打序乱,们他就译翻不出了来……让知们道中华文化的大博深精!们自我己读阅全完没障有碍。”
面对这串颠三倒四的汉字,想学中文的 Penn. 只回了一个弱小无助的:“What?”
这张截图随后被博主“白夜菌Dream”搬运到了微博,配文:“中文加密,对老外降维打击了”。微博评论区瞬间变成了大型“破解现场”,大家欢腾地表示:“毫无阅读障碍”、“一眼看上去没问题,仔细一看不对劲”、“不仅能看懂,甚至脑子里自动配出了声音”。
这种“中文优越感”的段子,每隔几年就会在互联网上“诈尸”一次。我们看着那些颠三倒四的汉字,却能在毫秒之间脑补出原本的含义,顿时觉得中华文化确实博大精深,仿佛掌握了一门只有我们自己懂的密码语言。
但我要给这盆热情的火泼一点冷水。这并不是中文独有的“神技”,也不是什么高深的“加密算法”。这仅仅是因为你的大脑是个极度聪明、但又极度爱“偷懒”的惯犯。而且,所谓的“剑桥大学研究”——那个经常被用来佐证这一现象的权威来源,其实也是一个流传了二十年的互联网神话。
英语乱序:那个不存在的“剑桥研究”
为了证明中文不是唯一的“乱序阅读者”,让我们先看一段著名的英语文本:
Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, it deosn't mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht the frist and lsat ltteer be at the rghit pclae.
是不是也能顺畅读下来?这段话的意思是:“根据剑桥大学的一项研究,单词中字母的顺序并不重要,唯一重要的是首字母和尾字母在正确的位置。”
这段文字早在2003年就在互联网上像病毒一样传播。虽然它读起来毫不费力,但必须澄清一个事实:剑桥大学(Cambridge University)从来没有做过这项研究。
来自英国剑桥医学研究委员会认知与脑科学部门(MRC Cognition and Brain Sciences Unit)的科学家马特·戴维斯(Matt Davis)曾专门撰文辟谣。他不仅查证了剑桥没有相关团队在做此类研究,还顺藤摸瓜找到了真正的源头——这其实最早可以追溯到格雷厄姆·罗林森(Graham Rawlinson)在1976年于诺丁汉大学完成的博士论文。
罗林森在他的论文《词汇识别中字母位置的重要性》(The Significance of Letter Position in Word Recognition)中确实发现,只要保留单词的首尾字母,中间的字母乱序对熟练读者的阅读速度影响很小。
但这并不意味着任何乱序都能被轻松破解。马特·戴维斯指出,那段流传甚广的英文之所以好读,是因为作者精心设计过:
- 短词保持不变:像"the", "at", "it" 这种两三个字母的功能词,根本没法乱序。
- 保留功能词:这些词维持了句子的语法结构,帮助大脑预测下一个词的词性。
- 相邻置换:比如把"problem" 写成 "porbelm"(相邻字母交换),比写成 "pborlem"(远距离交换)要好读得多。
- 发音保留:乱序后的单词,读音最好和原词接近,比如 "toatl" 和 "total"。
所以,并非所有的乱序都是“无障碍”的。如果我写一句:“The slta on the tbale is white.”(桌上的盐是白的),你可能得愣一下才能反应过来是“salt”(盐)和“table”(桌子),因为“slat”(板条)本身也是一个单词。这种“字母换位混淆”(Transposed-letter confusability)在很多语言中都存在。
并不是你在读字,而是大脑在预判
为什么中文和英文都能通过“乱序测试”?这背后涉及到大脑处理语言的核心机制:自下而上(Bottom-up)与自上而下(Top-down)的加工。
当我们刚开始学认字时,确实是“自下而上”的,从笔画到汉字,从字母到单词,一点点拼凑意义。但对于一个成年人,我们早已变成了“自上而下”的熟练工。
认知心理学中有一个著名的概念叫词优效应(Word Superiority Effect)。简单来说,就是我们在识别一个单词(或常用词组)时,速度要比识别单个字母或汉字快得多。我们的大脑并不是像扫描仪一样一个字一个字地“读取”,而是像探照灯一样一块一块地“抓取”信息。
在阅读那条“弟们兄”的微博时,你的大脑抓取的是“兄弟”、“顺序”、“翻译”这些高频词组的整体轮廓(Word Shape)。汉字作为一种表意文字,其图形特征非常明显。只要核心的轮廓还在,大脑就会动用庞大的数据库,根据上下文瞬间填补细节。
这就是为什么在豆瓣的那个经典笑话中,楼主把“红烧大排”看成了“红烧大便”。
楼主发帖:“怎样让大排不硬?”
一楼回复:“居然把题目看成是:‘怎样让大便不硬’……暴寒~~~后来才发现原来是大排……”
当你的眼睛扫过“红烧大X”时,如果你的潜意识里刚好闪过某种不雅的联想,或者字形轮廓有几分相似,大脑那台超频的预测机就会抢在视觉神经确认之前,先入为主地把“大便”这个词塞进你的意识里。
这种机制是为了生存。在远古时代,如果你要看清楚草丛里的每一条纹路才能确认那是一只老虎,你早就被吃掉了。大脑必须在信息不完整的情况下,依靠模糊的轮廓和经验,迅速得出“有老虎,快跑”的结论。
阅读乱序文字,本质上就是你的大脑在疯狂地进行“脑补”。你读到的不是纸面上的字,而是你大脑模型里应该出现的字。
所谓的“降维打击”真的存在吗?
回到开头那个让大家自豪的“加密”话题。把汉字打乱,真的能防住老外和AI吗?
对于初学中文的外国人,这确实是降维打击。因为他们还停留在“自下而上”的单字解码阶段,缺乏足够的语料库来进行整体预测。这就像让我们去读乱序的阿拉伯语或俄语一样,我们也会两眼一抹黑。
但是,对于高水平的中文学习者,或者在华生活多年的“中国通”,这种乱序造成的障碍非常有限。只要他们掌握了足够的词块(Chunks)和句型,他们的大脑也会习得同样的“预测”技能。
至于防AI,那更是天方夜谭了。
早期的翻译软件(基于规则或简单的统计模型)确实会被语序搞晕。但现在的AI,特别是基于大语言模型(Large Language Model, LLM)的人工智能,其核心原理恰恰就是“预测下一个字”。
GPT-4或者DeepL这些模型,见过的人类语料比任何一个博学的人都要多。它们极其擅长处理噪音(Noise)。在它们的训练数据中,充满了各种拼写错误、语序颠倒的互联网文本。对于AI来说,“弟们兄”和“兄弟们”在向量空间里的距离近得就像是同一个点。
更有趣的是,甚至有研究表明,适当的打乱顺序,反而能测试出一个语言模型的“类人”程度。如果一个AI读不懂乱序中文,说明它还在“死记硬背”;如果它能像你一样读懂,说明它已经掌握了这门语言的深层概率分布。
结语
我们之所以能毫无障碍地阅读乱序中文,并不是因为汉字有什么神秘的魔力,而是因为我们的大脑经过了长期的训练,学会了忽略细节、抓取核心、预测未来。
这既是人类智能的高效之处,也是我们的软肋。它让我们一目十行,也让我们在校对文稿时对明显的错别字视而不见;它让我们能看懂乱序的笑话,也让我们容易被断章取义的标题党误导,在没看完文章之前就根据关键词脑补出愤怒的情绪。
所以,再看到“中文加密”的段子,不妨会心一笑,这确实是属于母语者的特权。但也不必过度神话它,毕竟在地球另一端,读英语的人正看着“Toatl mses”(Total mess)发笑,而那个并没有做过这项研究的剑桥大学,依然在为人类大脑的奥秘而头秃。
语言不是为了加密,而是为了连接。既然我们的大脑如此渴望理解对方,甚至不惜自己动手修正错误的顺序,那我们不妨在交流时,多给彼此一些耐心,毕竟,连乱码我们都能读懂,还有什么误会是解不开的呢?
图片
参考丨
https://www.chem.ucla.edu/~jericks/Fonts/Deseret%20Objections/bogus%20word%20jumble%20continued.pdf
编辑丨扬薇儿







没有评论:
发表评论