网页中flash数据抓取(网络爬虫(2021-08-18)的基本认知 )
优采云 发布时间: 2022-01-31 01:22网页中flash数据抓取(网络爬虫(2021-08-18)的基本认知
)
2021-08-18
文章目录
一、爬行动物的基本认知
1、爬虫的简单定义
网络爬虫,又称网络蜘蛛、蚂蚁、蠕虫、模拟程序,在FOAF社区被称为二王子追逐者。它是根据一定的规则自动从万维网上抓取信息的程序或脚本。简单地说,网络爬虫使用预先编写的程序来爬取网络上所需的数据。
2、万能网络爬虫
搜索引擎的第一步是爬虫,但搜索引擎中的爬虫是广泛获取各种网页信息的程序。除了 HTML 文件之外,搜索引擎通常还会抓取和索引各种基于文本的文件类型。如TXT、WORD、PDF等。但一般不处理图片、视频等非文本内容,部分网页中的脚本和程序也不处理。
3、专注网络爬虫(主要学习方向)
捕获特定字段中数据的程序。比如旅游网站、金融网站、招聘网站等;特定领域的聚合爬虫会使用各种技术来处理我们需要的信息,所以对于网站中的动态信息,对于那些程序,还是会执行脚本来保证网站中的数据可以捕获。
4、爬虫的目的
5、爬虫的合法性
1)目前还处于一个不明确的阶段,“什么行为是不允许的”的基本秩序还在构建中。
2)至少现在,如果抓到的数据是供个人使用的,是没有问题的;如果数据用于转载,那么捕获数据的类型非常重要
3)一般来说,当抓取到的数据是现实生活中的真实数据(例如,营业地址、电话列表)时,是允许转载的。但是,对于原创数据(文章、意见、评论),通常受版权限制,不能复制。
4)无论如何,作为访问者,你应该限制自己的爬取行为,也就是说需要将下载请求的速度限制在一个合理的值,并且需要设置一个专属的用户代理来识别你自己。
6、robots.txt 文件
是君子协定,记录了一些网站允许其他网站爬取(允许、禁止)的范围,如:和
7、网站地图站点地图
站点地图是所有链接的 网站 容器,一个 xml 文档。许多 网站 连接很深且难以抓取。网站 地图可以方便搜索引擎蜘蛛抓取 网站 页面。通过爬取网站页面,清楚了解网站的结构,网站地图一般存放在根目录并命名为sitemap,为引导搜索引擎蜘蛛,添加网站 重要内容页面 收录。网站地图是根据网站的结构、框架和内容生成的导航网页文件。大多数人都知道 网站 地图有利于用户体验:它们为 网站 访问者提供方向并帮助迷路的访问者找到他们想看的页面。
例如:和
8、深度优先 vs 广度优先
1)深度优先策略
2)广度优先策略