文/青苗法鸣
编者按:本文研究了硕、博学位论文抄袭行为者的后续发展。得出的结论为:在统计学意义上,学位论文中抄袭程度较高的人,更容易入职公共部门,并在体制内晋升得更快。与本文研究目的相一致,编者选取本文发布的理由不在于评判。另外,也不在于鼓励抄袭,因为本文的研究存在数据未具体列举、重复率与抄袭之间如何定义的局限;以及对抄袭者研究的另一要素:职业寿命长短;还有随着查重技术提升、查重甚至可回溯更早期文章的此种变量对职业影响的局限。那么,编者发布此文的理由则在于:怀揣好奇心对现象作了解,并分享此文以供读者思考。
原文标题:《抄袭者更容易进体制内,晋升也更快 | 一项基于50万篇中国学位论文的研究》。
文章来源:本文转载自“知社学术圈”。
目录:
一、51.2万篇硕博学位论文,抄袭高度普遍
二、论文重复率高就意味着不诚信吗?
三、研究核心:抄袭者更容易进体制内、晋升也更快
四、“曾抄袭”法官的判决倾向性
五、“溢出效应”
六、补充说明
知社编后记
参考文献
近日,一项研究对中国硕、博士学位论文中的抄袭行为进行了追踪分析,并得出结论称:在统计意义上,学位论文中抄袭程度较高的人,更容易入职公共部门,并在体制内晋升得更快;此外,该研究还针对司法系统提出了进一步结论,称这类人如果担任法官,更容易在判决中偏向更强势一方的当事人。
这项研究的亮点在于,它并非依赖态度问卷或主观评价,而是直接回溯已经发生过的学术不端行为,并将其与毕业生后续的职业去向、晋升轨迹以及司法实践中的具体表现一一对应。正是在这种“从行为到结果”的追踪设计下,研究从多个维度观察到了结论现象。研究似乎在制度层面发问:当不诚实行为在学位授予等关键节点上未被筛除,它是否会沿着组织与权力结构持续积累,甚至一路放大其影响?
该研究由刘庄(John Zhuang Liu)、彭文威(Wenwei Peng)、王绍达(Shaoda Wang) 合作完成,目前以 working paper 形式流传,尚未经过同行评审、亦未正式发表。公开信息显示,彭文威将于 1 月 13 日 在香港大学就该研究进行报告。笔者尝试在不引入额外判断的前提下,对该研究的研究思路与主要发现进行整体介绍。
这项研究的起点其实很简单,甚至有点“扎心”。即:那些在学位论文中抄袭的人,后来都去哪了?
不少研究生在撰写硕博士论文时,都会抱着一种侥幸心理,试探规则的边界,尝试在论文中掺杂抄袭内容。但是,当这种侥幸真的得以侥幸过关,其学术不端行为带来的影响,真的就会止步于学生时代吗?还是说,它会在之后的求职、晋升乃至掌权过程中,以更隐蔽的方式持续发挥作用?
追问这一问题时,研究者没有依赖问卷或访谈,而是走了一条更直接的道路:不听表态,只看行为,去看抄袭者在接下来的道路中实际做了什么。
一、51.2万篇硕博学位论文,抄袭高度普遍
研究生学位论文这个切入口,是中国高等教育体系中一个极为关键、规则明确、后果清晰的制度节点。对于学位论文而言,抄不抄、怎么抄,从来不是模糊地带;一旦被认定违规,学位、前途都可能不保。
也正因为如此,研究者认为:在这一环节选择越界,本身就具有很强的信号意义——它不太可能是一时疏忽,而更可能代表当事人在高风险制度约束下作出的真实选择。以此作为研究的起点,再合适不过。
正是在这一前提下,研究团队利用中国知网的官方抄袭检测系统,对50万篇公开可获取的硕士、博士论文进行了系统性查重扫描。该查重并非粗略的关键词比对,而是逐行将论文文本与知网庞大的既有文献库进行匹配。算法能够识别直接复制的抄袭,也能识别改写、拼接等形式的抄袭,还能尽量排除规范引用带来的误判。最终,每一篇论文都被转化为一组量化指标,反映其整体抄袭程度以及抄袭集中在哪些部分。
查重结果显示,在CNKI抄袭检测系统处理的这512366 篇学位论文中,平均重复率为7.7%。该数值是 CNKI 查重系统给51.2万篇学位论文查重后,对所有重复率取平均后的结果。研究人员表示,该统计结果表明,抄袭在中国研究生学位获得者中具有高度普遍性。
二、论文重复率高就意味着不诚信吗?
有人质疑:论文重复率高有没有可能只是因为学术能力不足,或写作训练不充分,而未必一定意味着品行上的不诚实。为回应这一质疑,研究人员专门设计了相对独立的行为验证实验。
验证实验在一次真实的招聘流程中展开。参与者是数百名应聘者。招聘过程中,参与者被要求提交自己的硕士或博士论文,名义上是用于核查其学术能力;然后这些论文被统一进行查重检测。参与者接着被安排进行后续实验,分为两个部分。第一部分是问卷调查,主要询问参与者对不诚实行为的态度,例如是否认同“在不被发现的情况下说谎是可以接受的”,以及对代写论文等行为的接受程度。
第二部分则是一个带有金钱激励的行为实验。实验要求参与者在无人监督的情况下,自己掷骰子十次,并自行上报其中出现“六点”的次数;次数越高,奖励越高。由于掷骰过程无人监督,撒谎与否全凭参与者自觉。但在统计意义上,如果某些人报告出明显高于概率水平的结果,就意味着更高的不诚实行为倾向。
该实验结果显示,学位论文重复率越高的个体,在掷骰实验中越容易报告出异常的高收益的结果。而且这一相关性在控制了性别、学历以及多种性格特质之后依然显著。与此相反,问卷中关于不诚实行为的态度回答,则与论文重复率高低之间不存在显著联系。
研究者据此认为,学位论文中的重复率高低,和参与者在无人监管下的诚实倾向有所关联,因而可以作为衡量个体诚实倾向的一个现实指标。这一结果为下文核心部分的论证奠定了前提。
三、研究核心:抄袭者更容易进体制内、晋升也更快
下面这部分是论文的核心点之一,即毕业生的学位论文重复率与其后续是否进入公共部门以及其在单位内晋升速度的关系。
首先,作者以2014 年至 2022 年中国国家公务员考试及录用的公开名单作为原始样本,约得到34万人的样本。为避免同名误配等系统性偏差,又剔除了出现频率最高的部分常见姓名,仅保留姓名与毕业院校能够形成唯一匹配、且毕业时间早于公务员考试年份的个体;所有存在多重匹配可能的样本均被直接排除。在这样保守的数据处理下,研究人员只得到约6万名可以准确匹配其硕士或博士论文的公共部门从业者(以下均用此称呼)样本。
在比较方式上,研究并未将公共部门从业者与所有未进入体制的人的学位论文重复率进行简单对比,而是采用了更严格的同届对照设计。对于每一位进入公共部门的毕业生,研究者都从同一所高校、同一专业、同一毕业年份的学生中,随机抽取其同学作为对照组,并对两组人的学位论文分别进行查重检测。研究人员认为,这种方式可以令被比较的个体在教育背景、培养环境和毕业时间上高度一致,从而更纯粹的看出重复率差异和职业去向之间的联系。
由此对比发现,毕业后进入公共部门就业的人群,其学位论文重复率显著高于对照组。具体而言,相较于同校同专业同届的同学,公共部门从业者的论文重复率平均高出约1.2个百分点。参照之前得出的总样本的平均重复率水平(7.7%),这一差异相当于近15%的相对增幅。研究者强调,这一结果在控制了性别、民族背景、是否获得国家奖学金等变量后依然稳健,并在不同年份和不同类型高校中反复观察到。
通常而言,学位论文中的抄袭也存在不同程度之分。对文献综述、研究背景等非核心部分的抄袭虽然同样违规,但往往被视作程度较轻;而在理论框架、支撑性证据和结论等论文核心部分出现抄袭,则被普遍认为性质严重。基于这一常见区分,研究人员进一步细分了论文核心、非核心部分维度,意图弄清楚公共部门从业者高出来的这部分重复率主要集中在哪部分。
结果,当仅以学位论文的核心部分进行查重分析时,公共部门从业者的论文重复率竟然上升得更加明显。因此,这种重复率的异常就不能以不熟悉学术规范为理由搪塞,而更应当归结为实质性的学术诚信问题。
核心部分的另一个主要论点,是抄袭程度高的毕业生在进入体制后的晋升速度问题。
作者利用依法公开的任职与晋升公告,构建了公共部门从业者入职后的职业轨迹数据,并重点关注个体在入职第五年时所达到的职务层级。为减少制度差异带来的干扰,研究将比较限定在同一政府单位、同一入职年份的公务员内部,从而确保被比较者在任职年限、组织环境和晋升规则上背景接近。
结果显示,在入职后的前五年内,学位论文重复率较高的公共部门从业者,其晋升速度平均快9%—15%。这一关联在进一步控制了性别、毕业院校层级、专业背景、学历层次等因素后依然存在,并在多个公共部门分支中均可观察到。尤其是,在税务、海关等裁量权力空间相对较大的系统中,这一差异表现得尤为明显。
值得强调的是,研究者在分析上述关联性(学位论文重复率与进体制和晋升快的关联)时保持了谨慎立场,称观察到的关联性仅是统计意义上的,而非直接的因果推断。但他们也同时指出:至少从可观测结果来看,学位论文中所反映的不诚实行为,并未在公共部门的筛选和晋升过程中受到系统性惩罚。
四、“曾抄袭”法官的判决倾向性
不过,研究到这还只算进行了一半。接下来,研究者选择了一个具体的系统进一步展开研究:司法系统。试问,那些曾在学位论文中作出抄袭行为的人进入司法系统,尤其是担任法官后,他们的判决结果会表现出某种“特征”吗?研究对此得出的结论是,会有一定特征,确切来说,这些曾经抄袭过学位论文的法官,会在判决中更倾向于倒向强势一方的当事人。
在分析结论由来之前,需要补充研究人员特地选择司法系统进行研究深挖的原因。这主要是因为司法系统是在数据上有重大优势,即:法院文书公开程度高,案件结果可量化,很多信息(当事人类型、诉讼请求、审理程序、是否上诉等)在裁判文书里都写得清清楚楚;更关键的是,在同一法院、同一类案件中,案件具体由哪位法官审理,并不完全取决于当事人选择或法官个人意愿,而在很大程度上受制于内部的分案与工作负荷机制。这使得研究人员得以设计出一种珍贵的“准随机性”,为分析争取了空间。(我们会在下文看到这种“准随机性”是如何设计的)
研究者首先把样本做到了“足够大”。他们从中国裁判文书网收集了 2014—2022 年间超过 1.4 亿份民事与行政裁判文书,从中整理出法官名录与完整办案轨迹,最终得到约19 万名具有可用办案记录的法官,并用与前文一致的方式将法官与其硕博学位论文匹配起来(参考前文的样本处理)。经过这一套筛选,得到6万余名能够匹配学位论文并获得论文重复率的法官样本。换句话说,此时,研究者不仅知道某位法官过去有没有论文抄袭记录,还能看到他在现实中处理的海量案件及其裁判结果。
但仅仅做出“大样本”还不够。这里分析最大的难点在于:案件本身的特性就有可能会造成判决的倾向性。而如果某些法官总是被有意安排,去处理这类带有判决倾向性的案件,那么就很难将这种判决的倾向性简单归结到法官本人身上。
为了解决这个难点,研究者意图规避开那些被有意安排的案件,想要通过随机分配的案件来统计分析法官判决的倾向性。因为,如果在随机分配案件的情况下,法官的判决仍然具有某种倾向性,那么这种倾向性就不能是来自于案件,而必然出自于法官本身。这就是前文提到过的,“准随机性”的设计。
为了筛选出这种“随机分配的案件”,研究人员利用了法院的工作特性:即法院内部不同法官的工作负荷时有起伏。具体来说,在同一法院、同一业务条线内(例如合同纠纷、公司案件、行政诉讼等),多位法官往往同时在办案。新案件进入法院时,具体由谁来审,在很大程度上取决于当下哪位法官手头相对更“空”,而不是案件本身的特征。研究者正是抓住了这一点:他们逐周计算每位法官的在办案件数量,并根据每一起新案件进入法院的时间,观察审判此案的法官是否恰好是同一业务条线内“案件负荷较低”(比较空闲)的。如果是,那么这个案件就可视作是准随机的,具有分析价值。
于是,通过这个方法,研究人员围绕那些在学位论文存在抄袭行为的法官,收罗到了他们所判决的“准随机分配”案件。
对这些判决的分析显示,研究人员在三类典型情景中观察到了这些“曾抄袭”法官的判决倾向性:其一,在行政诉讼中(公民/企业起诉政府),这类法官的判决更可能偏向政府一方;在商事纠纷中,其判决更可能偏向国有企业而非民营企业;在一般民事案件中,其判决更可能偏向规模更大的企业当事人而非规模较小者。
研究给出的量化结果是:在案情和类型相近的情况下,“曾抄袭”法官会更频繁地偏向强势当事人判决,频率大致比其他法官高出一成左右。
为了进一步说明这些判决存在质量与倾向性问题,研究人员额外采用了三个可在判决文书中可评估的指标:其一是上诉率,通常被视为判决更可能存在争议或质量不足的信号;其二是判决中是否更多援引某些更具自由裁量空间的条款(研究人员引述既有研究,称这类条款的使用往往与偏向性裁判相关);其三是判决文书中“说理部分”的长度(研究人员引述既有研究,称说理更充分往往与判决更扎实相关)。
就这三个额外指标而言:“曾抄袭”法官所审判案件的上诉率高了约3.3个百分点(比基准水平高约18%),更可能使用裁量性条款(比基准水平高约19%),说理部分平均更短(比基准水平少约37个词)。研究者认为,这些指标与前述裁判倾向相互印证,使其“判决存在倾向性”这一判断更具说服力。
最后,研究人员还补足一个相当直观的对照标准:庭审是否被直播。他们指出,上述倾向性判决及判决质量下降的现象,几乎全部集中在“未直播”的案件中;而在直播庭审的案件里,即便仍用同样的识别方法,抄袭记录与判决倾向之间的关联基本消失。
研究人员表示,这一对照,使人们更难把这些判决的存在解释为“法官能力不足”——显然法官能力不会因为是否直播就忽高忽低。他们认为这是一种“在不同监督强度下的行为差异”的证据。
作为进一步佐证,论文还报告:有抄袭记录的法官在后续年份中,受到反腐调查与纪律处分的概率也更高。这一点在方向上与研究主要发现保持一致。
五、“溢出效应”
在前文的研究基础上,研究人员还发现“曾抄袭”法官周围存在明显的“溢出效应”。所谓溢出,是指个体层面的不诚实行为,会通过工作协作与带教关系,在系统内部向其他人扩散。
研究者利用了司法系统中一个非常典型、也非常稳定的组织结构——“师徒式带教”。在中国法院体系中,新入职法官通常会被分配到由资深法官负责的小组,在相当长的一段时间里与导师共同办案、学习裁判思路和具体操作方式。
研究结果显示,这种高频共处方式来了明显的“溢出效应”。那些跟随过有抄袭记录导师的年轻法官,在大约一年左右的共事后,其判决方式也会明显向导师靠拢,更容易作出偏向强势一方的裁决。量化来看,这种“被导师带出来的变化”所产生的影响,大约相当于“自身有抄袭经历”所带来的影响的一半,已经是一个相当可观的“溢出”。
研究人员进一步指出,这种溢出并不只发生在法官之间,也延伸到了法官与律师的互动中。研究者进一步将律师与其学位论文的抄袭记录进行匹配,发现了一个颇具指向性的结果:当案件通过前述方式,被“恰好”分配给有抄袭记录的法官时,那些同样存在抄袭记录的律师,反而更容易为当事人争取到胜诉;相反,在学术履历上更“干净”的律师则并不享有这种优势。
六、补充说明
在论文结尾部分,作者强调,他们并未试图将这些发现简化为对个体道德品质的评判,也没有声称“学术不端者必然会在所有岗位上做出不当行为”。他们的研究关注的始终是一个更制度性的命题:当不诚实行为在某些关键节点上没有受到有效惩罚,甚至在筛选与晋升过程中与“成功路径”并不冲突时,它是否会以一种可被统计观察的方式,被不断放大并嵌入到组织运行之中。
此外,论文也并未否定反抄袭制度本身的价值。根据各个高校反抄袭制度在不同时间上线的时间差,研究者得以比较:同期经历过严格查重和未经严格查重的毕业生,在后续职业表现上的差异。比较发现,严格的反抄袭制度仍确实显著降低了学位论文中的抄袭比例,并且在一定程度上改善了毕业生后续的职业行为表现。这表明,反抄袭制度并非完全无效,只是它不足以在制度层面承担起筛选诚信的核心功能。
不过,论文最终并未给出一个简单的“解决方案”,而是将问题重新抛回制度本身。研究者声称应当对这些解决方案发起进一步追问,不过这些探讨已经远远超出了该研究的范围。
知社编后记:这项研究目前仍处于 working paper 阶段,尚未通过正式的同行评议。文中关于学术不端与公共部门筛选、司法裁判行为之间关系的发现,均基于作者所选取的数据范围和识别策略,而其所得到结论的稳健性和外推性,仍有待学界进一步讨论、验证。
笔者看来,这篇论文的最大贡献,在于尝试将看似“校园内部”的学术行为,与长期职业轨迹和制度运行结果连接起来,并通过大规模行政数据与筛选设计,使一些原本停留在道德讨论层面的议题进入了可量化检验的范围。但不可避免地,论文中的部分结论、解释仍不可避免地依赖推断,有待更多证据加以区分。
知社在此呈现这项研究,意在提供一份值得关注与讨论的学术工作线索,而非为任何具体结论背书。是否接受、如何理解这些发现,仍应留给更广泛的学术讨论与公共讨论。
参考文献
[1]http://www.sdwang.org/uploads/4/4/8/5/44856715/bad_apples_1119.pdf
[2]https://www.hkubs.hku.hk/event/a-few-bad-apples-academic-dishonesty-political-selection-and-institutional-performance-in-china/

没有评论:
发表评论