网页中flash数据抓取(网络爬虫可分为通用爬虫和聚焦爬虫两种..)

优采云发布时间: 2021-12-15 23:40

　　根据使用场景，网络爬虫可以分为通用爬虫和聚焦爬虫。

　　通用爬虫

　　通用网络爬虫是搜索引擎爬虫系统（百度、谷歌、雅虎等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成互联网内容的镜像备份。

　　通用搜索引擎（Search Engine）工作原理

　　一般的网络爬虫从互联网上采集网页，采集信息。这些网页信息用于为搜索引擎索引提供支持。它决定了整个发动机系统的内容是否丰富，信息是否是即时的，所以它的性能是非常出色的。自卑性直接影响搜索引擎的有效性。

　　第一步：爬网

　　搜索引擎网络爬虫的基本工作流程如下：

　　首先选择一部分*敏*感*词*网址，将这些网址放入待抓取的网址队列；取出要爬取的URL，解析DNS得到主机的IP，下载该URL对应的网页，存入下载的网页库，存入下载的网页库。这些 URL 被放入已爬取的 URL 队列中。解析爬取的URL队列中的URL，解析其中的其他URL，将URL放入URL队列进行爬取，从而进入下一个循环……

　　搜索引擎如何获取新的网站 URL：

　　新增网站主动提交网址给搜索引擎：（如百度）

　　在其他网站上设置新的网站*敏*感*词*内）

　　搜索引擎与DNS解析服务商（如DNSPod等）合作，快速抓取新的网站域名。

　　但是搜索引擎蜘蛛的爬取是有一定的规则进入的，需要遵守一些命令或者文件内容，比如标记为nofollow的链接，或者Robots协议。

　　> Robots协议（也叫爬虫协议、机器人协议等），全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，例如：

淘宝网：https://www.taobao.com/robots.txt

腾讯网： http://www.qq.com/robots.txt

　　第 2 步：数据存储

　　搜索引擎使用爬虫来抓取网页并将数据存储在原创页面数据库中。页面数据与用户浏览器获取的 HTML 完全相同。

　　搜索引擎蜘蛛在抓取页面时也会做一定量的重复内容检测。一旦他们遇到大量抄袭、采集或网站上访问权重较低的复制内容，他们很可能会停止爬行。,

　　第三步：预处理

　　搜索引擎会对爬虫检索回来的页面进行爬取，并进行各个步骤的预处理。

　　除了 HTML 文件，搜索引擎通常可以抓取和索引多种基于文本的文件类型，例如 PDF、Word、WPS、XLS、PPT、TXT 文件等，我们经常在搜索结果中看到这些文件类型。

　　但是，搜索引擎无法处理图像、视频和 Flash 等非文本内容，也无法执行脚本和程序。

　　第四步：提供检索服务，网站排名

　　搜索引擎对信息进行整理和处理后，为用户提供关键词检索服务，并将与用户检索相关的信息展示给用户。

　　同时会根据页面的PageRank值（链接的访问量排名）进行网站排名，使得Rank值高的网站排名在搜索结果中更高。当然，你也可以直接用Money购买搜索引擎网站的排名，简单粗暴。

　　但是，这些通用搜索引擎也有一定的局限性：

　　针对这些情况，聚焦爬虫技术得到了广泛的应用。

　　焦点履带

　　聚焦爬虫是一种“面向特定主题需求”的网络爬虫程序。它与一般搜索引擎爬虫的区别在于：聚焦爬虫在实现网页爬取时会对内容进行处理和过滤，并尽量保证只有爬取到的页面信息与需求页面信息相关。

　　而我们以后要学习的网络爬虫就是专注于爬虫。

　　我是白有白，喜欢分享知识的节目*敏*感*词*姐❤️

　　没有接触过编程的朋友如果看到这个博客，发现自己不会编程或者想学习，可以留言+私我~【非常感谢大家的喜欢，采集，关注，评论，一键四连支持】

0

2021-12-15

网页中flash数据抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页中flash数据抓取(网络爬虫可分为通用爬虫和聚焦爬虫两种..)

0 个评论

发起人