关于查重,你想知道的都在这里了。
本文主要有以下几个部分:
一、针对查重与降重的辟谣与科普
二、拿来就能用的正派论文降重技巧
三、具体降重案例剖析
四、常见问题答疑
一、针对查重与降重的辟谣与科普
1. 系统到底怎么查重?「不允许连续 13 字相同」是真的吗?
经常有人问我,知网是按连续多少字相同来查重?不允许连续 13 字相同是真的吗?
这是一条最流行、最古老的传言了,但实际上这是假的。
就这么说吧,按最严格的标准来,就算你每隔 7 个字就插入一个字,语句不通不说,降重效果也微乎其微。
知网查重系统开发一二十年了,每年更新个几次,算法若是真的如此小儿科,那也不会有人苦恼降重的问题了,每句多写几个字谁不会。
2. 查重阈值是多少?「查重阈值 5%」是真的吗?
查重阈值确实存在,但具体是多少,有很多种说法,0.5%、1%、5%……但即使知道了也没多大意义,所以不必纠结这个。
比如假设阈值是 1%,知网查重会分段落(按章节或随机分),如果一个段落 10000 字,那么理论上单篇抄袭 100 字不会标红。那么实际操作是这样的,你先假定一个阈值(可能是错的),看每个章节字数(系统可能不按章节分),算出单篇可抄袭字数(最多也就一小段),找多篇文献每篇抄一小段(某些文献可借鉴的很多,而有些文献一段也用不上),最后你得确保除了抄袭的这段,其他内容不会和这些文献重复(有时自己写的也判定重复),以上条件都满足,抄袭而不标红的「阴谋」才能得逞,太累了……
当然你每篇抄得越少,被查出来的概率就越低,这是肯定的。
至于「越少」是多少,没人说得清。
3. 那知网到底怎么查重?
知网采用模糊算法,分段进行查重(识别出章节就按章节分段)。
统计每个段落文字/关键词并与论文库里的文献进行对比,达到一定比率,就把连续重复多的地方标红。
看到这里,你是不是很蒙,完全不知道怎么对症下药。
你只需要知道的是,系统没有那么智能,不会对比论文表达的意思,它只是一堆很死的代码、算法,按字词的相似比率来判断抄袭,你要做的是尽量改得和别人不同,观点一样没关系,用词、表达方式一定要变。
4. 查重后听说有检测记录,知网会不会就入库了,导致学校重复率飙升?
先说答案:不会,只要你有钱,查多少次都可以,知网更新时才会收录(通常半年或一年后)。只要学校没说不让提前查,那就放心查随便查。
加载中…
检测记录是指,检测报告上【可能】会显示【以前某一次】(通常是最近一次)的查重时间和结果。
这个记录不代表论文入库,不影响学校检测。
然而在全国检测量巨大的毕业季,常会出现即使你没有提前检测,也会有查重记录的情况,这属于知网 Bug 了。
少数学校不允许学生提前检测,而自己又刚好是碰上知网 Bug 的倒霉蛋,真是跳进黄河也洗不清……
而大多数导师或检测老师其实是不懂这些的,你跟他们解释也没用……
5. 引用要怎么标注才不会标红?抄书或截图是不是查不出来?
需要明确的是:引用也是要参与查重的,无论你标不标注、标注得再规范,查重结果都是一样的!
直接引用别人原文等于抄袭,你需要用自己的话组织表达别人的观点。
有人问,如果是引用一篇在知网上搜不到的论文,或者抄书呢,是不是就查不出来?
不是。
首先知网和知网查重系统是两回事,系统收录的远不止知网上的论文,假设不成立。
其次关于抄书的问题,系统有图书资源库,而且即使系统没有收录相应的书,你抄的书上的内容也可能被以前的学生抄过,所以被标红也不是没有可能。
至于截图嘛,负责任地告诉你,还是比较管用的。
如果学校允许,表格、代码、附录这些,如果重复多,能截图还是截图吧。
虽然现在知网可以查图片,在 2018 年更新增加了 OCR 功能后,查重时能够识别图片中的文字,但图片被查出的概率几乎是一半一半,而且大多数情况是文字过多的、清晰度高的图片容易被查出来,其他也就还好。
至于 Mathtype 编辑的公式,和图片格式差不多,根据经验,被查出来的概率不大,放心用。
6. 论文格式影响查重吗?
说实话,会影响。
如果是交学校前最后一次查重,建议排版好再查,确保和提交学校的版本是一致的。
当然这里的格式不是指字体、颜色、行间距等等,而主要是三点:
首先,目录要自动生成,参考文献格式正确,才不会被标红;
其次,各章节标题是否为标题格式,会改变系统分段,有时对结果影响很大,有同学自己查重合格,重新排版后交到学校查,重复率升高了 10%;
最后,关于 word 和 pdf 查重,一定要按学校要求来,因为结果可能差异很大。如果两个都允许,首选用 word 查。因为 pdf 会查页眉页脚(脚注),参考文献标红的概率大,以及可能出现各种各样的问题。
二、拿来就能用的正派论文降重技巧
有人可能会问,我一个老实学生,不想用投机法把论文搞得乌七八糟,我要怎么降重?
我总结了一下。
方法:以句子或段落为单位,在理解原文意思和逻辑的基础上,复述一遍。
精髓:结合使用各种降重技巧,尽可能改得和原文不同,逃过系统查重。
原则:保持原意,质量第一,降重第二。别过分苛求重复率,别为了降重而降重!
下面,我掏心掏肺告诉你,最基础又有效的降重技巧。
1. 同义词替换
专业词保留,其它词改掉。
如:损坏=破坏,渠道=途径,降低=减少,第一第二第三=首先其次最后。
如:人们俗称的女神通常都十分漂亮 → 普通人眼中的女神往往都面貌姣好。
2. 改变表述方式
「变换主被动语态」「使用反义词」等把原文换一种方式来表达。
如:成功率很高=失败率很低,我打了他=他被我揍了
3. 打乱顺序
多个词语、短句或段落在并列的情况下,尽量打乱顺序
如:我喜欢的水果有苹果、梨子和香蕉=我爱吃香蕉、梨子及苹果这三种水果
4. 拆分合并法
长句分成短句,短句合并为长句。
5. 适当增词
实在无计可施的情况下,可适当增词来避免句子和原文过于相似。
6. 做表格
不仅数据可以做表格,只要分类表述的内容都可以做表格,例如各公司的激励政策对比,做表可以一定程度避免重复,更妙的是,维普不查表格。
7. 表格重复
调换行列顺序,数据用 mathtype 输入。
8. 翻译法的正确使用姿势
读外文文献并人工翻译,重复的概率很低,慎用机器翻译。
9. Mathtype 输入数据或字母
工科福利,目前知网检测图片的能力有限,大部分 mathtype 查不出来。
10. 中英文人名互换
例如:汤姆=Tom。
11. 中文数字和阿拉伯数字互换
例如:一=1、①,19 世纪 80 年代=十九世纪八十年代。
12. 专业词多到崩溃,有把握的前提下可替换
例如:CO2→二氧化碳,降维攻击→降维打击;
可使用代词,他、她、它、其、这、那、前者、后者、该物质等等。
如「A 在燃烧后产生 B,A 的特点是……,B 的特点是……」可改为「B 是 A 的燃烧产物,前者具有……特征,后者具有……特征」,这就消灭了两个关键词。
13. 能写中文尽量不写英文
查重系统是按字符数算的,「皇帝」算 2 个字符,「Emperor」算 7 个字符,当然更容易重复了。
14. 英文摘要重复
改英文太难,那就把中文句先改得彻底一些,拗口也没关系,然后用谷歌翻译差不多就能搞定。
学校要求高的话需人工翻译。
题外话:有些同学会说,这些方法我试过了,不管用。
我想说,单纯使用一种方法效果肯定不会太好,比如每句替换几个近义词或只调换顺序,改后依旧标红的可能性很大。
降重是一个概率问题,各种技巧需要结合起来使用。
查重系统就是一堆算法,你对原句改动越大,系统越无法识别出相似,那自然就降重成功;
反过来,即使你已经竭尽全力改动某句或某段,也不能 100% 保证说肯定不重复了。
很多同学都有过这种体会,一些自己写的句子也会被标红,天下论文千千万,这种情况其实很常见,你要做的是把标红内容都改改,那么全文重复率降低是必然的事。
三、具体降重案例剖析
在这个部分,我会根据示例,教你怎么使用上面的技巧。
1. 什么叫以句子/段落为单位进行降重?
《皇帝的新衣》原文:许多年前,有一位皇帝,为了穿得漂亮,不惜把所有的钱都花掉。他既不关心他的军队,也不喜欢去看戏,他也不喜欢乘着马车逛公园——除非是为了炫耀一下他的新衣服。他每天每个钟头要换一套新衣服,人们提到他总是说:「皇上在更衣室里。」
(1)以句子为单位降重后
在很久以前,有个皇帝愿意将全部财产都用在穿着打扮上。他对看戏提不起兴趣,对军队不管不顾,连坐马车逛公园都一心想着向世人显摆自己的新衣服。这位皇帝一整天总在换衣服,成了老百姓口中「总在更衣室里」的皇帝。
重点:改前改后段落中相同的词语已加粗,其他词汇全替换,且保证原意不变,语句通顺。
(2)以段落为单位降重后
在很久以前,有一位老百姓口中「总在更衣室里」的皇帝。他对看戏提不起兴趣,对军队不管不顾,但一整天总在换衣服,连坐马车逛公园都一心想着向世人显摆自己的新衣服。他甚至愿意将全部财产都用在穿着打扮上。
重点:理解整段话的意思,在替换词、调换顺序的基础上把句子进行糅合,重新表达。
注:选了一段大家都比较熟悉的内容,演示下到底该怎么改,有兴趣的同学可以好好对比琢磨下,虽然看起来内容和技巧都很简单,但运用这种改法,从 100% 改到 10% 以内不成问题哦。
2. 具体说说这个「调换顺序」要怎么操作?
调换顺序,主要用在因果关系和并列关系的多个词语、句子或段落之间。
比如上文这段《皇帝的新衣》,你会发现每个短句都在表达皇帝臭美这个意思,但互相之间不挨着,谁先说谁后说都行,那就可以随便排列组合。
再比如「因为你很美,所以我爱你」,可以改为「我爱你,是由于你很美」,先果后因;
「因为你漂亮、善良又有钱,所以我爱你」,改为「我爱你,是由于你有钱、善良还漂亮」,三个并列关系的形容词,可以随意排列顺序。
抛砖引玉,总之,你越想尽办法把原文改得「面目全非」,查重系统就越认不出你来,重复率当然轻松通过。
题外话:有些同学会说,查重系统是识别关键词,调换顺序根本没用,或者拿检测报告来说,「你看我按你说的改了,还是标红了。」这就像告诉我清华毕业生也有卖猪肉的,就放弃读书了一样。
还是那句话,降重是个概率问题,并不是你改了就一定成功,只是不改一定会继续红,你用的技巧方法越多,降重效果越好,按句子改不如按段落改效果好,只改词汇不如改词汇+换顺序的效果好。
调换顺序有没有用,起码对知网来说太有用了(几千篇、数百万字亲测),paperpass 可能不是那么友好。
永远记住,不改一定红,改了碰碰运气。
还有,不要纠结于某一句话到底要怎么降重,有些句子就是特别难,实在改不了就放弃,多关注那些能改的,控制全文重复率就好。
3. 大段数据重复怎么改?
参考以下示例。
加载中…
重点:别动数据,结合「同义词替换」「打乱顺序」等方式进行修改。
「替换词」:增加→上涨;一共→总数;大幅度→显著 ……
「变换顺序」使用得更加频繁,如专任教师→保育员→教师,改为教师→保育员→专任教师。
词语、短句甚至段落之间,只要是并列的情况,都可以打乱顺序进行叙述,降重效果甚佳。其他细节技巧大家可以自己对比两个段落,体会下。
四、常见问题答疑
1. 我抄的怎么没查出来,哪个查重系统更准?
查重系统没有准不准的说法,它们各自论文库不同,你只要老老实实通过学校要求的软件即可。
即使牛逼如知网,也不能保证把所有抄袭都查出来。
抄的没查出来,有两种可能,一是系统没收录,二是没达到查重阈值(简单说就是抄某篇论文字数不多,系统默认不标红)。
只要是正版知网检测过的,提交相同文档到学校,结果肯定是一样的。
2. 第一次检测没标红的句子,在修改后复测时标红了,什么情况?
虽然知网是目前最牛的查重系统,但也做不到 100% 一次性把所有抄袭都查出来。
当整篇文章在字数、结构、内容上有所变化时,系统又可能再次检测出新的抄袭。
即使这个句子或段落自始至终没有改动过,但在修改过程中,它周围的段落或整篇文章有所变化,其所在环境发生变化,最终导致这个段落也被系统识别了。
举个很形象的例子。
连连看,这个游戏有个功能是重新排列,在重新排列前后,虽然可供连接的东西本身没有变,但由于顺序变了或周围环境变了,就又可以发现新的连接。
再举个很实际的例子,一篇文章重复了 5000 字,把红字都删掉再检测,大概率不会是 0%。
有同学又问了,那会不会越改重复率越高,不得改到天荒地老?
不会的。
通常新查出来的标红内容,都是那种本身就是抄的,只是第一次没查出来而已。
把这些都改掉了,重复率肯定能降低。
同时也提醒大家,修改后建议都再检测一下,保证和提交学校的是同一版本,才能确保结果一致哦(学校有自建库的话,结果可能会有差异)。
3. 哪里有正版知网检测?
首先要强调一下,所有能检测的地方都是商家,知网官方不对外检测。
也就是说,你百度搜出来的检测入口,没有一个是官网,都是域名加个 cnki,装成官网的样子而已。
我的建议是别查,买到盗版的概率很高,没有客服回答问题,有纠纷也退不了款。
知网正版报告可验真伪,网址:学术不端报告单验证
其中专本科定稿系统验证显示 PMLC 或毕设系统,硕博士定稿显示 5.3 或 TMLC,期刊系统显示 AMLC 或 SMLC。
验证成功一定是正版。
另外还要注意安全问题,论文是否会被泄露等等,这个就靠自己辨别了,选择信任靠谱的商家。
PS. 2022 年的情况是,除了学校查的知网报告带有编号,你自费查的,即使买到的是正版,商家大概率也会删除报告编号,那么还可以根据以下几点来初步判断真伪:
(1)报告顶部一定有知网 LOGO 和标志(有没有水印不重要)。
(2)检测范围同学校 15 个数据库(PMLC 包含大学生论文联合比对库,VIP5.3 包含学术论文联合比对库)。
符合以上两点,有可能是正版;任意一点不符合,一定不是正版。
4. 知网报告上的「疑似指标」会有影响吗?
加载中…
这个疑似指标没人看的,极其极其个别的学校说不准有疑似指标,但有些同学还是爱去纠结这个东西,那我简单说下吧。
「疑似剽窃文字表述」,只要你重复率不是 0%,几乎都会打钩;
「疑似剽窃观点」,你把报告上显示的「疑似剽窃观点」框框里出现的句子,全改到合格(从红到黑),那么理论上可以去掉这个指标。
最后,友情提示:
很多同学大喊论文重复率降不下去,其中有一半是因为使用了错误的查重软件。
根据经验,专本硕论文大部分要求知网,少数要求维普;博士论文大部分要求知网,极少数要求万方。
降重难度:知网<万方<维普<paperpass/paperfree/各种 paper 类软件
(2020 年,万方升级后难度变高,维普升级后变态程度略下降。)
你没看错,知网是最简单的,但很多同学迫于钱包压力,前期会使用 paperxx 来查。
这些野生软件的算法很严格。
这意味着一段重复高较高的内容,经你修改后,可能在知网已经合格了,但在 paperxx 那儿,它很可能标黄,继续占重复率,给人怎么都降不下来的感觉……
所以我一般建议使用学校要求的软件,但是鉴于知网价格确实肉疼,初稿还是先用别的系统多查查改改,没查出来的摘抄部分也记得一起改掉,万一定稿后知网查一次就过了呢!一个省钱小妙招,送给大家。
□ 一枚猫奴