爬虫简介

优采云 发布时间: 2020-06-17 08:01

  网络爬虫机器人,以互联网自由抓取数据的程序

  网页的三大特点:

  是拿来写前端的,对于异步和多任务处理不太好,爬虫是一个工具性的程序爬虫,对效率要求比较高

  是Python写爬虫的最大竞争对手,Java语言生态系统比较健全,对各模块的支持也比较友好。但是Java这门语言比较笨重,重构和迭代成本比价高

  语言较难,代码成形比较慢

  语法简单素雅,第三方模块比较丰富,关于爬虫的网路恳求模块和网路解析模块(Lxml,BeautifulSoup,pyQuery)也比较多,并且有高效稳定的scrapy网路爬虫框架,以及爬scrapy,redis分布式爬虫框架,Python也是一门胶带语言,对于其他语言的调用比较便捷

  是搜索引擎的重要组成部份

  尽可能的将所有互联网上的网页下载到本地,经过预处理(去噪,分词,去广告),最终将数据存储到本地,做一个镜像备份产生一个检索系统

  1.选取一部分的url作为*敏*感*词*url,将这种url装入到带爬取的任务队列上面

  2.从待爬取的任务列队中取出url,发起恳求,将获取的网页源码储存到本地

  并将早已爬取过的url ,放到已爬取的队列中

  3.从已爬取的URL的响应结果中剖析提取其他的url的地址,继续添加到待爬取的队列中,

  之后就是不断的循环,直到所有的url都获取完毕。

  1.通过网站提交自己的网站地址()

  2.搜索引擎会和DNS服务商合作,拿到最新的网站地址

  3.网站中包含其他外链

  DNS服务:将我们的域名转换为对应的ip的一种技术

  数据获取------>预处理(去噪,分词,去广告.....)------>存储------>提供检索插口|排名(网络排行)

  网站排名:

  1.根据用户的访问量(越多越靠前)

  2.竞价排名

  1.必须遵循robot合同:就是一个规范,告诉搜索引擎爬虫,哪些目录下的资源容许爬虫,哪些目录下的资源不容许爬虫

  "user-agent":这项值拿来表示是哪家的搜索引擎

  "allow":允许被爬取的url

  "disallow":不容许被爬取的url

  2.搜索引擎返回的都是网页,并且返回的90%都是无用的信息

  3.不能否按照不同用户的需求返回不同的结果

  4.通用爬虫对于多媒体的文件不能够获取

  聚焦爬虫是面向主题的爬虫,在爬虫数据的过程中会对数据进行筛选,往往只会爬虫与需求相关的数据

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线