解决方案:OBD蓝牙采集器和其它采集器的区别是什么?
优采云 发布时间: 2022-12-16 23:35OBD蓝牙采集器是车辆监控系统的通讯接口。车辆维修除了读取故障码外,主要功能是提供车辆的各种工况数据,如燃油压力、发动机气流、车速等。
OBD采集器常见问题解答:
1、OBD大数据与其他采集器插件有什么区别?
1、OBD蓝牙采集器列表和内容页面均在云端服务器端进行预处理,更加节省服务器资源。
2、在插件中,用户可以方便的管理需要发布的文章链接,自由选择是否发布。
3、插件接口代码开源,可自定义输出结果,可扩展功能。
4. 无需在电脑上安装软件,网站可以自动访问和更新文章。
5、无需编写内容页面规则,由云端采集自动识别,上千种资源可用。
2、大数据插件工作流的初始配置和使用有哪些注意事项?
1、安装发布接口插件,填写我平台的注册账号OID和token。确保设置成功,并且您已完成一半。
2.准备开始测试。可以复制平台分享的资源,在导入中填写3-5篇文章,填写导入分类ID,导入入口。
3.授权状态和资源状态设置为一起启动,
3、插件设置里的“触发每个PV”应该填多少?
PV是页面浏览量,当用户访问你的网站时,js脚本触发云服务器。您设置的数字越大,两侧的服务器负载越小。
建议填写你的网站PV数除以一千得到的值,比如每天30000PV,建议填写30以上。理论上,你拥有的用户PV越多,你添加的资源就越多,网站的更新频率就越高。
解决方案:伪原创网站的识别方法及装置的制造方法
伪原创网站 识别方法和器件制造方法
【技术领域】
[0001] 本发明涉及信息技术领域,具体涉及一种伪原创网站识别方法及装置。
【背景技术】
[0002] 随着网络技术的不断发展,通过网络获取信息的用户也越来越多,能够为用户提供信息的网站也随之增加。但是,随着网站的数量不断增加,不同网站之间的信息重复率也随之增加,于是就有了伪原创网站,伪原创网站 中的页面通常是根据 原创网站 中的页面修改而来的。
目前对伪原创网站的识别方式通常是先挖掘伪原创特征词,如果某个网页收录伪原创特征词,则判断该网页是伪原创网页,当一个网站收录大量伪原创网页时,网站被识别为伪原创网站。但是由于自然语言中词的歧义性,现有的伪原创特征词挖掘准确率较低,导致伪原创特征词识别基于伪原创网站不太准确。
【发明内容】
[0004] 本发明实施例提供了一种伪原创网站识别方法及装置,能够提高伪原创网站的识别准确率。
本发明实施例采用的技术方案是:
一种伪原创网站的识别方法,包括:
提取网站中收录的各个网页以及各个网页分别对应的样式指纹;
分别计算每个网页对应的风格指纹与伪原创风格指纹的汉明距离;
统计所述每个网页与所述伪原创样式指纹之间的海明距离大于或等于第一预设阈值的网页数量;
[0010] 如果网页数量大于或等于第二预设阈值,则确定网站为伪原创网站。
一种伪原创网站的识别装置,包括:
提取单元,用于提取网站中收录的各个网页以及该各个网页分别对应的样式指纹;
计算单元,用于分别计算所述提取单元分别提取的每个网页对应的风格指纹与伪原创风格指纹之间的汉明距离;
统计单元,用于统计所述计算单元计算出的每个网页中所述伪原创风格指纹之间的汉明距离大于或等于第一预设阈值的网页的个数;
[0015] 判断单元,用于若统计单元统计的网页数量大于或等于第二预设阈值,则判断网站为伪原创网站。
本发明实施例提供的伪原创网站识别方法及装置,首先分别提取网站中收录的各个网页以及各个网页对应的风格指纹,然后分别计算海明各个网页对应的风格指纹与伪原创风格指纹之间的距离,然后统计各个网页与伪原创风格指纹之间的汉明距离大于或如果网页个数为等于第一预设阈值,若网页数量大于或等于第二预设阈值,则确定网站为伪原创网站。与目前基于伪原创的伪原创特征词识别伪原创网站相比,
【图纸说明】
为了更加清楚地说明本发明实施例中的技术方案,下面对实施例描述或者现有技术中需要用到的附图进行简单介绍,显然,以下描述中所用的附图仅为本发明的部分实施例,本领域技术人员在没有作出创造性劳动的前提下,基于这些附图,还可以得到其他的附图。
图1为本发明实施例提供的一种伪原创网站识别方法流程图;
图2为本发明实施例提供的另一种伪原创网站识别方法流程图;
图3为本发明实施例提供的一种伪原创网站识别器*敏*感*词*;
[0021] 图。图4为本发明实施例提供的另一种伪原创网站识别装置的结构*敏*感*词*。
【详细方式】
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例只是本发明实施例的一部分,而不是整个实施例. 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023] 为使本发明技术方案的优点更加清楚明白,下面结合附图及实施例对本发明进行详细说明。
本发明实施例提供了一种伪原创网站的识别方法,如图1所示,所述方法包括:
[0025] 101、分别提取网站中收录的各网页及各网页对应的风格指纹。
其中,每个网站下都可以收录多个网页,每个网页对应的样式指纹是一种识别该网页的64位代码,基于网页html(网页超文本标记语言)中的各个节点生成源代码的dom树结构。
[0027] 102、分别计算每个网页对应的风格指纹与伪原创风格指纹的汉明距离。
[0028] 其中,数据库中保存了大量预先挖掘的伪原创风格指纹。
具体的,依次比较网页对应样式指纹的64位数字代码和伪原创样式指纹的64位数字代码,统计同一位置数字代码的不同次数,使用times 作为网页对应的风格指纹和伪原创风格指纹之间的汉明距离。例如,如果网页对应的模式指纹与伪原创模式指纹的第24位和第50位不同,则网页对应的模式指纹与伪原创模式指纹的汉明距离为2.
[0030] 103、统计每个网页与伪原创风格指纹之间的汉明距离大于或等于第一预设阈值的网页的数量。
[0031] 其中,第一预设阈值为汉明距离的上限,可以为3、5、6等,可以根据实际需要进行配置,本发明实施例不做限定.
[0032] 104、若网页数量大于或等于第二预设阈值,则确定网站为伪原创网站。
[0033] 其中,第二预设阈值为网页数量的上限,可以根据实际需要进行配置,本发明实施例不做限定。当网页数大于或等于第二预设阈值时,说明网站收录的伪原创网页过多,故确定网站为伪原创 网站,提高了伪原创网站的识别准确率。
本发明实施例提供的一种伪原创网站的识别方法,首先分别提取网站中收录的各个网页和各个网页对应的样式指纹,然后分别计算各个网页对应的风格指纹与伪原创风格指纹之间的汉明距离,然后统计各个网页与伪原创风格指纹之间的汉明距离大于或等于的个数网页数量等于第一预设阈值,若网页数量大于或等于第二预设阈值,则确定网站为伪原创网站。与目前基于伪原创的伪原创特征词识别伪原创网站相比,
本发明实施例提供另一种伪原创网站识别方法,如图2所示,所述方法包括:
[0036] 201、计算每个网站收录的网页对应的风格指纹,建立风格指纹与网页的对应关系。
[0037] 其中,通常可以对用户最近浏览过的网站中的所有网页进行风格指纹的获取。一个样式指纹可以对应一个或多个网页,每个网页对应一个URL(Uniform Resource Locator,统一资源定位符),URL用于标识网页对应的网站链接地址.
对于本发明实施例,步骤201具体可以包括:首先创建网页节点样式集,然后根据每个节点分别对应的字符串,生成所述网页对应的样式字符串,最后计算出所述网页对应style string的style string的simhash(locality-sensitive hash)值,将simhash值作为网页对应的style fingerprint。
其中,网页节点样式集合中包括分别对应网页各节点的字符串,所述各节点用于标识网页各区域的显示方式,所述字符串包括所述各节点分别对应的节点名称node 、节点样式属性和节点样式属性值。节点样式属性具体可以是颜色、字体大小、显示范围等,节点样式属性值是每个节点样式属性的具体配置。例如,对于节点样式属性颜色,节点样式属性值可以是红色、蓝色等;对于节点style属性的字体大小,节点style属性的值可以为具体的字体大小赋值。
对于本发明实施例,创建网页节点样式集的步骤具体可以包括:首先获取所述网页对应的html源码,并根据所述网页对应的html源码,构造与所述网页对应的dom树网页结构,然后提取dom树结构上每个节点对应的节点名称、节点属性、节点属性值,最后根据各自的节点生成各自的节点名称、节点属性、节点属性值在dom树结构中。节点对应的字符串保存在网页节点样式集合中。例如某节点的节点名称为节点1,
对于本发明实施例,根据网页各节点对应的字符串,生成网页对应的样式字符串的步骤具体可以包括: 先生成空字符串S,再判断所有