网页中flash数据抓取(谭云财SEO顾问：sitemap蜘蛛抓取原理详解百度蜘蛛)

优采云发布时间: 2021-12-20 16:04

　　（谭云才SEO顾问）在互联网上，我们经常会涉及到各种搜索引擎的爬取算法，所有的搜索引擎都必须经过爬取和过滤。五个主要的搜索引擎是百度、搜狗、360、谷歌和必应。抓取的原理是什么？一个存储到展示的过程。当然，他们都会抓取robots文件，具体抓取时间和频率根据网站的更新频率+站点地图更新确定。

　　详解sitemap蜘蛛爬行的原理

　　百度蜘蛛抓取原理

　　爬取：百度蜘蛛会先分析网站的robots文件，然后读取网站的哪些目录可以爬取，哪些信息不加权重。百度蜘蛛抓取的信息属于广义模式，会抓取一个链接目录下的所有子链接，或者抓取一个页面上的所有链接进行存储。

　　百度蜘蛛也会根据爬取频率和时间来判断一个网站的性能。网站服务器在一定单位时间内（天级别）的总爬取次数，如果搜索引擎爬取该站点的频率太高，很可能导致服务器不稳定。当网站出现延迟时，将暂停当天内网站内容的获取。

　　还要注意网站各个页面之间的权重转换以及面包屑的合理布局。

　　具体的爬取频率和爬取时间需要根据网站服务器的性能来判断，对网站的内容重复进行过滤。

　　百度蜘蛛通常最热衷于静态目录形式的链接：

　　如同：

　　所有的域名都会有pr的权重参数，所以在网站的布局中，所有的列都需要根据蜘蛛爬取的信息进行排序，即“信息在先，功能在后”的布局被俘。

　　过滤：百度蜘蛛不会抓取JS脚本、iframe框架、网页需要登录的信息、flash视频。（这些都是禁忌！）

　　正常情况下，百度蜘蛛会从每天提交的新内容中识别并抓取内容网站；然后过滤内容，过滤掉发现不舒服的内容；

　　惩罚：如果在网站上发现大量类似内容，直接过滤掉。如果采集的内容严重的话，网站可能会被黑1-2个月收录内没有给出，结果是网站进入沙盒期并且它的排名下降了。

　　存储：百度蜘蛛会过滤数据，保留符合条件的内容，存储在临时索引库中，进行分类存储。

　　显示：库中存储的内容，我们将通过站点命令查看索引。当用户搜索内容时，百度蜘蛛会选择符合用户习惯并需要展示的内容。

　　对抗采集站的算法：此外，百度会定期发布相应算法对抗采集网站，保护原创。采集不同文章的多篇文章拼接在一起，整体内容没有形成完整的逻辑，存在阅读不一致、文章不连贯等问题，并且当内容不能满足用户需求，百度也将严打，收录网站的内容在一段时间内将无法使用。

　　搜狗搜索引擎抓取原理

　　搜狗的搜索引擎采用目录爬取，即注重深度索引。（批量推送时，会选择性抓取内部链接）

　　一个内容好、内容独特的页面，如果你的页面内容与互联网上已经存在的其他页面的相似度高，可能不是搜狗收录。

　　1、链接级别浅的页面，以及链接级别太深的页面，尤其是动态网页的链接，将被丢弃而不是收录。

　　2、如果是动态网页，请控制参数个数和URL长度。搜狗更喜欢收录静态网页。

　　搜狗搜索引擎主要抓取微信内容。

　　360搜索引擎抓取原理

　　360搜索引擎主要抓取网站的ALT图片，是一款专业的图片搜索引擎工具。通常，站长也会将图片提交给360进行抓取，并有选择地存储和构建索引库。

　　360搜索引擎主要抓取网站图片。

　　谷歌搜索引擎抓取原理

　　谷歌搜索引擎又称通用搜索引擎，分为索引蜘蛛爬行和目录蜘蛛爬行，爬取网络上的所有链接。【做站群时需要禁止谷歌抓取】

　　Bing搜索引擎抓取原理

　　主要用在手机端的UC浏览器，差点挂了。（武汉seo优化）

0

2021-12-20

网页中flash数据抓取

0 个评论

要回复文章请先登录或注册