输入关键字 抓取所有网页(360搜索引擎搜索出的结果存在大量虚假诈骗、钓鱼等信息)

优采云 发布时间: 2022-04-09 08:24

  输入关键字 抓取所有网页(360搜索引擎搜索出的结果存在大量虚假诈骗、钓鱼等信息)

  昨天,360搜索再次掀起波澜。有网友爆料称,360搜索引擎的搜索结果中收录大量虚假诈骗、钓鱼等信息。网上有评论称,360搜索引擎并没有最初宣传的那么安全。那么360搜索引擎的安全性如何?与大家经常使用的传统百度和谷歌相比,360搜索引擎会不会更有优势呢?

  要回答这个问题,我们需要从搜索引擎的技术原理说起。搜索引擎的技术实现其实是很复杂的,尤其是想要取得好的效果,需要耗费大量的人力物力,但是搜索引擎的技术原理其实并不复杂。简单来说就是三个步骤:抓取-索引-排序。

  搜索引擎工作时,首先会使用一个叫“Spider”或“Crawler”(也叫Robot)的爬虫来访问互联网访问网站,并将互联网中的所有URL网站爬取完成后,分析索引系统对爬虫爬取的内容进行分析、计算、构建索引库。当用户在搜索框中输入关键词进行搜索时,检索程序从网页索引库中查找所有匹配的相关网页,并根据网页的相关度排名将结果返回给用户。

  这就是搜索引擎工作的*敏*感*词*,无论是百度还是谷歌和360,都是在这三个基本原则下工作的。但目前,由于各种爬虫的能力、索引能力和排序策略,各种搜索引擎在用户使用的最终结果中都有不同的表现。目前的搜索引擎正处于信息转化为知识的初级阶段,例如如果你在搜索央视,你会很高兴在第一个搜索结果中看到央视主页。但事实是,搜索引擎根本不明白你要找的实际上是“中央电视台”,它只是匹配了关键字上的“CCTV”。

  虽然360在推广自家搜索引擎时声称自己是安全的搜索引擎,但如果你真的想把搜索引擎的结果提炼成真正意义上的安全内容,这并不是一件简单的事情。首先,360应该有一个足够完善的URL安全自动检测系统,能够检测到自家爬虫抓取到的内容,然后对其内容进行分析,并对疑似恶意网页进行标记。或者另一种方法是,当网民进行搜索时,对网民看到的搜索结果进行安全检查,然后在搜索结果呈现时对所有恶意网页结果进行标记。

  从这个过程可以看出,搜索引擎中使用的分词、倒排索引、pagerank等都是方法,并不是为了安全。你真正希望用户看到的结果是安全的,并且必须有一个强大且完整的 URL 恶意 URL 库,并且该库可以不断更新。

  从360披露的搜索结果中大量的恶意和欺诈网址来看,很明显360目前的工作积累还不够。所以,360把自己标榜为安全搜索引擎,多少有些吹牛。估计周鸿祎也是利用360品牌在网友心中的安全定位,将自己的搜索引擎等同于商业利益的安全。他大概是希望自己能迅速从百度拉拢大量用户,迅速为品牌服务。360产生广告收入,这可能是360搜索的核心目的。至于用户使用是否真的安全,周鸿祎的性格可能不会太在意。

  有趣的是,在360搜索发现大量恶意网址后,第一个拦截恶意网址的是腾讯电脑管家。目前,百度也在与腾讯电脑管家合作开展安全搜索工作。采用的方法是百度调用腾讯电脑管家的网站云安全库,然后将网页结果与电脑管家云库中的数据进行对比。不过,百度选择了腾讯电脑管家。赢得联合合作的机会可能会更高。毕竟腾讯在业界公认的恶意URL库方面是最好的。

  诺顿提示 Google 搜索结果的安全性

  最新消息是,9月17日,360紧急对自己的搜索结果网址进行了加密,主要是为了防止其他安全软件检查其搜索结果中的网址。这偏离了业界较为普遍的做法,而且谷歌的结果更加开放,允许各个安全厂商查看自己的搜索结果。但 360 对其搜索结果进行加密,将所有竞争对手拒之门外,并将用户置于危险之中……

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线