谷歌抓取网页视频教程(各大搜索引擎爬虫标识通用爬虫框架爬虫的种类一般)

优采云 发布时间: 2022-01-07 10:04

  谷歌抓取网页视频教程(各大搜索引擎爬虫标识通用爬虫框架爬虫的种类一般)

  什么是搜索引擎爬虫

  定义

  网络爬虫(也称为网络蜘蛛或网络机器人)是一种按照一定的规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称包括蚂蚁、自动索引、模拟器或蠕虫。

  搜索引擎爬虫是各大搜索引擎为获取互联网信息而开发的特定网页爬虫程序。

  各大搜索引擎的爬虫标志

  "百度": re.compile("(Baiduspider(?:[-\w]+)?/\d\.\d)", re.I),"搜狗": re.compile("(Sogou(?:[\w\s])+Spider/\d\.\d)", re.I),"360": re.compile("(360spider)", re.I),"神马": re.compile("(YisouSpider(?:[-\w]+)?/\d\.\d)", re.I),"谷歌": re.compile("(GoogleBot(?:[-\w])?/\d\.\d)", re.I),"头条": re.compile("(Bytespider)", re.I)

  通用爬虫框架

  

  爬行动物的种类

  爬虫一般分为三种:

  普通履带

  垂直爬虫(专业爬虫)

  暗网爬虫

  普通履带

  普通的爬虫只是捕捉一切,没有特定的方向。如果您遇到链接,请抓住它。

  爬行动物

  专门爬取特定领域的信息,如B2B、新闻、电子商务等。

  暗网爬虫

  主要解决暗网爬取问题。暗网(invisible web、hidden web)是指存储在网络数据库中但无法通过超链接访问而需要通过动态网络技术访问的资源集合。它们不属于可以被标准搜索引擎索引的表面网络。

  爬取策略宽度优先抓取策略

  

  深度优先爬取策略

  与广度优先策略相反,较少使用

  大站点优先爬取策略

  大站点优先爬取策略的思路很简单。网页的重要性以网站为单位来衡量。对于要爬取的URL队列,根据自己的网站进行分类,其中网站等待,如果下载的页面最多,则先下载哪个网站。

  这个想法源于一般大型网站都是由比较知名的公司运营,内容质量比较高。

  OCIP 爬取策略

  OCIP 策略的字面意思是“在线页面重要性计算”,可以看作是 PageRank 算法的改进版本。

  在算法开始之前,每个互联网页面都被给予相同的“*敏*感*词*”。每当某个页面 P 被下载时,P 就会将自己拥有的*敏*感*词*平均分配给该页面收录的链接页面,然后清空自己的*敏*感*词*。对于URL队列中待抓取的网页,按照手头*敏*感*词*的多少进行排序,*敏*感*词*最多的网页先下载。

  重温策略

  互联网是不断更新的。我们每天都会向网站发布大量新内容,旧内容也可能会被更改或删除。对于这种变化,搜索引擎也需要保证其一致性。所以存在重新访问的问题。

  主要重访策略:

  历史参考策略

  这是最直观的更新策略。这个想法是过去经常更新的网页将来会经常更新。因此,为了估计某个网页何时会更新,可以参考其历史更新来做出决定。

  当然,更新的区域必须是网页的主要模块更新,而不是广告的更新或一两个链接的变化。

  用户体验策略

  在搜索结果中,大多数情况下,用户只会点击前三页的内容,甚至第一页的内容。至于后面的页面,很少有人访问,所以这些页面的重要性不是那么大。只要搜索引擎保证前三个结果的页面是最新的就可以了,那些排名较低的页面可以稍后更新。这将确保使用搜索引擎的用户访问最新页面。保证搜索引擎的用户体验。同时,它节省了搜索引擎资源。

  一般情况下,用户体验策略会保存网页的多个历史版本,这也是我们看到同一个网页的原因,可能会有多个不同的网页快照。搜索引擎会根据过去每次内容变化对搜索质量的影响,得出一个平均值,作为判断爬虫对网页的抓取时间的参考依据。受影响的网页越多,安排重新爬网的优先级就越高。

  聚类抽样策略

  因为以上两种策略都需要保存网页的历史数据,这样会增加搜索引擎的负担。所以有一个集群抽样策略。

  该策略主要基于:

  网页都有一些属性。基于这些属性,可以预测更新周期。具有相似属性的网页具有相似的更新周期。然后就可以根据这些属性对网页进行分类,同一类别中的网页具有相同的更新频率。

  比如企业网站文章的详情页和新闻详情页很少更新。但是,产品页面和部分页面可能会更频繁地更新。对于电子商务产品页面,它们也是每天更新等等。

  视频下载链接:

  提取码:wsab

  商业时间:

  给自己加点技能,摆脱繁琐的手工操作,一起学Python和seo实战课吧?200个视频深度解说,带你从零基础入门到实战。

  课程链接:《Python与seo实战课程》

  转发您的关注,后期会有更多免费seo课程等着您!

  

  本文来自微信公众号——布鲁克斯的科技之家(bluekeso)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线