自动抓取网页数据( 官方谷歌蜘蛛最新名称为Googlebot十分“勤奋抓爬”的蜘蛛)

优采云发布时间: 2022-01-09 11:02

　　自动抓取网页数据(

官方谷歌蜘蛛最新名称为Googlebot十分“勤奋抓爬”的蜘蛛)

　　各个搜索引擎蜘蛛的介绍，搜索引擎蜘蛛抓取网站和抓取数据的规则

　　1、百度蜘蛛：BaiduSpider

　　常见的Baiduspider和Baiduspider-image（抓图）

　　百度还有其他几个蜘蛛：Baiduspider-video（抓取视频）、Baiduspider-news（抓取新闻）、Baiduspider-mobile（抓取wap），没有一个是常见的

　　百度爬虫UA：

　　PC：Mozilla/5.0（兼容；Baiduspider-render/2.0；+）

　　移动设备：Mozilla/5.0（iPhone；CPU iPhone OS 9_1，如 Mac OS X）AppleWebKit/601.1.46（KHTML，如 Gecko）版本/9.0手机/13B143 Safari/601.1（兼容；Baiduspider-render/2.0;+）

　　图片：“百度蜘蛛图片+(+)”

　　2、谷歌蜘蛛：谷歌机器人

　　有人说谷歌蜘蛛就是GoogleBot。Google 官方蜘蛛的最新名称是 Googlebot，Googlebot-Mobile 也被发现了。名字应该是爬取wap内容。

　　Google Spider Crawler UA：“Mozilla/5.0（兼容；Googlebot/2.1;+）”

　　3、360Spider：360Spider

　　它是一只非常“勤奋”的蜘蛛

　　360蜘蛛爬虫UA：

　　Mozilla/5.0（兼容；MSIE 9.0；Windows NT 6.1；三叉戟/5.0)；

　　4、搜狗蜘蛛：搜狗新闻蜘蛛

　　搜狗还有其他几种蜘蛛：搜狗网络蜘蛛、搜狗inst蜘蛛、搜狗蜘蛛2、搜狗博客、搜狗猎户蜘蛛、冬镜只在日志中找到了常见的搜狗新闻蜘蛛。（参考百度的robots文件，搜狗蜘蛛的名字可以用搜狗来概括，但不知道有没有用。）

　　搜狗爬虫UA：

　　“搜狗网络蜘蛛/4.0(+#07)”

　　5、必应蜘蛛：bingbot

　　必应蜘蛛爬行者 UA：

　　“Mozilla/5.0（兼容；bingbot/2.0;+）”

　　6、SOSO 蜘蛛：Sosospider

　　腾讯死了，交给搜狗

　　soso蜘蛛爬虫UA：“Sosospider+(+)”

　　7、雅虎蜘蛛：雅虎！Slurp 中国（雅虎中国）或雅虎！啜饮（雅虎英语）

　　雅虎蜘蛛爬虫 UA：

　　雅虎！中国：“Mozilla/5.0（兼容；Yahoo! Slurp 中国；）”

　　雅虎！英语：“Mozilla/5.0（兼容；Yahoo! Slurp;）”

　　8、MSN 蜘蛛：msnbot，msnbot-media

　　重庆seo似乎只看到msnbot-media疯狂爬行...

　　MSN 蜘蛛爬虫 UA：*msnbot/1.0 (+”)

　　还有其他蜘蛛：YisouSpider，Alexa蜘蛛：ia_archiver，一搜蜘蛛：EasouSpider，即时蜘蛛：JikeSpider，还有YandexBot、AhrefsBot和ezooms.bot等蜘蛛。据说这些外国蜘蛛不好

　　搜索引擎蜘蛛是搜索引擎的自动程序。它的功能是访问互联网上的网页、图片、视频等内容，并建立索引库，让用户可以在搜索引擎中搜索到你的网站网页、图片、视频等内容。

　　一般用法是“蜘蛛+URL”，下面的URL（网址）就是搜索引擎的踪迹。如果你想查看搜索引擎是否抓取了你的网站，可以查看服务器日志中是否有这个URL。，还可以查看时间、频率等。

　　1、百度蜘蛛：可以根据服务器的负载能力调整访问密度，大大降低了服务器的服务压力。根据以往的经验，百度蜘蛛通常会过度重复爬取同一页面，导致其他页面无法爬取，无法收录。这种情况可以通过机器人协议进行调整。

　　2、Google Spider：Google Spider 是一个比较活跃的网站扫描工具，它每 28 天左右发出“蜘蛛”来检索更新或修改的网页。与百度蜘蛛最大的不同在于，谷歌蜘蛛比百度蜘蛛的爬取深度更大。

　　3、雅虎中国蜘蛛：如果某个网站在Google网站下没有很好的收录，在Yahoo下也不会有很好的收录和爬行。雅虎蜘蛛数量庞大，但平均效率不是很高，相应的搜索结果质量也不高。

　　4、微软必应蜘蛛：必应与雅虎有着深厚的合作关系，所以基本的操作模式与雅虎蜘蛛类似。

　　搜索引擎蜘蛛的爬取规则提供以下四点供参考：

　　1、搜索引擎蜘蛛需要能够看到链接文本

　　这是搜索引擎蜘蛛在爬行时可以检索到的文本。如果文本或链接是通过 JavaScript 调用的，则蜘蛛无法检索它。主要内容在页面文字内容中的位置越高，越有利。例如，产品名称在页面上的位置越高，产品关键词在页面上的排名越有利。

　　2、搜索引擎蜘蛛可以抓取没有被nofollow处理的链接

　　此项列出了搜索引擎蜘蛛可以检索到的链接，蜘蛛可以通过这些链接访问网站其他页面。@> 更有可能。

　　3、搜索引擎蜘蛛可以找到图片的链接并阅读这些图片的含义

　　该页面主要展示搜索引擎蜘蛛和国际W3C标准化监视器检索到的图片。搜索引擎可以根据图片at=""判断图片的类型、性质和主题。有很大帮助，可以有效提高产品展示页面的搜索引擎排名。根据W3C标准，页面上的所有图片都必须添加alt=""图片注释，网站Logo使用网站的名称和简短的描述，产品图片使用产品名称，以及页框图像留空。

　　4、搜索引擎蜘蛛擅长识别 HTML 代码

　　模拟搜索引擎蜘蛛爬取页面时，得到的“简化代码->指过滤css和JavaScript后的代码”，可见减少空行、行等冗余代码空间非常重要休息，空格等。

　　5、搜狗蜘蛛：搜狗蜘蛛的爬行速度比较快，爬行的次数比速度略少。最大的特点是不爬取robot.text文件。

　　6、搜搜蜘蛛：搜搜早期使用了谷歌的搜索技术。谷歌有收录，搜搜肯定有收录。2011年，搜搜宣布采用自己的独立搜索技术，但搜搜蜘蛛和谷歌蜘蛛的特点还是有相似之处。

　　8、有道蜘蛛：和其他搜索引擎蜘蛛一样，任何权重网站的链接一般都可以是收录。爬取的原理也是通过链接之间的爬取。

0

2022-01-09

自动抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动抓取网页数据( 官方谷歌蜘蛛最新名称为Googlebot十分“勤奋抓爬”的蜘蛛)

0 个评论

发起人