伪原创相似度查询(做一个简单的自动去重的工具,你知道吗?)
优采云 发布时间: 2021-12-18 03:07伪原创相似度查询(做一个简单的自动去重的工具,你知道吗?)
写在前面
正值毕业季,很多朋友都为论文的复核而烦恼。于是想到做一个简单的自动去重工具,先看效果,然后再对原理或代码实现做进一步的分析。
首先,您需要输入 appid 和密钥。您可以在百度翻译开放平台申请账号,可以免费申请账号。然后将需要减重的文本内容复制到对应的输入框中,点击开始按钮输出不同但相似的句子,即达到减重减重的效果。点击复制按钮将获取到的新文本复制到剪贴板,点击清除按钮重新输入需要减重的文本,迭代进行。
重复数据删除原理
论文检查的粒度是句子,两个句子的相似度主要取决于句子收录哪些词以及词在句子中的位置。句子相似度只是文本比较,没有考虑语义相似度。
正因为如此,我们可以采取的措施是改变句子结构,使用相似的词替换。
为了完成这些句子的自动替换,从而达到减轻权重的目的,很容易想到利用不同语言之间的相互转换来生成新的文本。例如,在这个工具中,我采用了中文→英文→韩文→中文的策略。您也可以采用更长的转换路径,但这似乎会大大降低文本的可读性。
使用开放平台
对于句子翻译,我使用了百度翻译开放平台的接口。一个简单的申请后,我每个月就可以获得200万个免费字符翻译权限。
这个API的访问方式有点麻烦,需要生成签名标志,拼接完整的url。
def translate(q,lan_from,lan_to):
url = 'http://api.fanyi.baidu.com/api/trans/vip/translate'
salt = random.randint(1, 65536)
sign = hashlib.md5((str(appid)+str(q)+str(salt)+str(key)).encode('utf-8')).hexdigest()
params = {
'from' :lan_from,
'to' :lan_to,
'salt' : salt,
'sign' : sign,
'appid' : appid,
'q': q
}
r = requests.get(url,params=params)
txt = r.json()
if txt.get('trans_result', -1) == -1:
print('ERROR Code:{}'.format(txt))
return q
return txt['trans_result'][0]['dst']
总结
搞清楚API的原理和调用方式之后,我们就可以很方便的写出一个GUI界面,就是这个减重工具。当然,这个工具是非常基础的,你可以更全面地扩展它。
创作不易,喜欢就好!!