伪原创相似度查询( 一个简单的自动去重的工具,你知道吗?)
优采云 发布时间: 2022-03-12 21:14伪原创相似度查询(
一个简单的自动去重的工具,你知道吗?)
前言
本文文字和图片来源于网络,仅供学习交流,不做任何商业用途。版权归原作者所有。如果您有任何问题,请联系我们进行处理。
又一年毕业季
正值毕业季,很多小伙伴都被论文检查深深困扰。所以就想到了做一个简单的自动去重工具,先看看效果,再进一步分析原理或者代码实现。
首先需要输入appid和key。您可以在百度翻译开放平台申请账号,也可以免费申请账号。然后将需要缩减的文本内容复制到对应的输入框中,点击开始按钮,即可输出含义不同但相似的句子,即达到减重去重的效果。点击复制按钮将获取到的新文本复制到剪贴板,点击清除按钮重新输入需要缩小的文本,重复。
去重原理
论文重复检查的粒度是句子。两个句子的相似度主要取决于句子收录哪些词以及词在句子中的位置。句子相似度只是文本比较,没有考虑语义相似度。
正因为如此,我们可以采取的措施是改变句子结构,改用近似词。
为了完成这些句子的自动替换,从而达到减重的目的,很容易想到利用不同语言之间的相互转换来生成新的文本。比如在这个工具中,我使用了中文→英文→韩文→中文的策略,也可以走更长的转换路径,但这似乎在很大程度上降低了文本的可读性。
使用开放平台
对于句子的翻译,我使用百度翻译开放平台的界面。经过一个简单的申请,我每月可以获得200万个免费字符翻译权限。
这个API的访问方式有点繁琐,需要生成签名签名并拼接完整的url。
def translate(q,lan_from,lan_to):
url = 'http://api.fanyi.baidu.com/api/trans/vip/translate'
salt = random.randint(1, 65536)
sign = hashlib.md5((str(appid)+str(q)+str(salt)+str(key)).encode('utf-8')).hexdigest()
params = {
'from' :lan_from,
'to' :lan_to,
'salt' : salt,
'sign' : sign,
'appid' : appid,
'q': q
}
r = requests.get(url,params=params)
txt = r.json()
if txt.get('trans_result', -1) == -1:
print('ERROR Code:{}'.format(txt))
return q
return txt['trans_result'][0]['dst']
总结
搞清楚API的原理和调用方法后,我们就可以很方便的写一个GUI界面了,这就是减重工具。当然,这个工具很简陋,你可以更全面地扩展它。
欢迎点击左上角关注小编,除了分享技术文章还有很多福利,私信学习资料可领取,包括但不限于Python实战演练、PDF电子文档、面试亮点、学习资料等