2023年2月16日星期四

简体中文互联网的语料质量非常差,会严重影响AI(ChatGPT等)的学习效率

@阑夕

前几天看到有说百度那个只知道怼人(你咋不说等于14)的聊天机器人都是以微博为语料库做的学习,我个人倾向于是虚构的讽刺,但它想要摆明的原理其实是立得住的,那就是所有立志于开发中国版ChatGPT的公司都要面临一个同样的难点:

简体中文互联网的语料质量非常差,这会严重影响AI的学习效率。

这里说的质量差当然指的不是文化层面的,而是文本书写的非标化,比如在正常表达时突然插入拼音缩写这种习惯,对于AI训练而言,堪比在大米里掺沙子的行为。

英语语境也有很多非正式的简写表达,比如who r u这种,但是相对来说,这类简写的增量有限,大多数情况下遵循约定俗成的规律,少有自造场景。

但在简中语境里,掺杂拼音缩写早就到了滥用的程度,尤其是在社媒环境里,你永远不能理解为什么有人写着写着突然就蹦出几个拼音字母出来,当AI要去猜这些拼音背后应该关联什么文本时,这和它本身学习的语言能力是完全无关的,需要通过新写代码的方式增加调校参数。

举个例子,「我老公在gwy里也属于非常敬业的人了」,这里的gwy到底指的是公务员还是国务院,别说AI了,就连正常的人类,如果没有对上下文的详细了解,他都没办法确定对应词语究竟是哪一个。

pysx想用就用当然一时爽,但它的后果不光是劣化中文读写环境,到了AI时代也依然会遭到长久负面的遗害。

尤其是GPT这种「暴力美学」的语言模型,它所需要的语料规模空前之大,如果绕开实时互联网只让它从论文库这种严谨表达的数据里得到训练,除了不够用之外,中文论文的质量⋯⋯其实也不太能行,不过这又是另一个话题了。

总而言之,我们必将在今年看到层出不穷的中国版ChatGPT相继问世,但在实现目标的道路上,会堆满了各种障碍物,有很多都是互联网公司以一己之力搬不开的。

 
@子陵在听歌

ChatGPT英语和中文的体验完全不同。中文错误百出,也很容易被诱导。于是我问ChatGPT为什么它的英语输出比中文好很多。它的回答和我猜测的一样,英语有更多和更高质量的AI language model training data。可获取的英语AI训练文本材料远比中文多得多,且质量可信度更高。但AI在努力提高其他语言训练。 


没有评论:

发表评论