爬虫简介

优采云发布时间: 2020-06-17 08:01

　　网络爬虫机器人，以互联网自由抓取数据的程序

　　网页的三大特点：

　　是拿来写前端的，对于异步和多任务处理不太好，爬虫是一个工具性的程序爬虫，对效率要求比较高

　　是Python写爬虫的最大竞争对手，Java语言生态系统比较健全，对各模块的支持也比较友好。但是Java这门语言比较笨重，重构和迭代成本比价高

　　语言较难，代码成形比较慢

　　语法简单素雅，第三方模块比较丰富，关于爬虫的网路恳求模块和网路解析模块（Lxml,BeautifulSoup,pyQuery）也比较多,并且有高效稳定的scrapy网路爬虫框架，以及爬scrapy，redis分布式爬虫框架，Python也是一门胶带语言，对于其他语言的调用比较便捷

　　是搜索引擎的重要组成部份

　　尽可能的将所有互联网上的网页下载到本地，经过预处理（去噪，分词，去广告），最终将数据存储到本地，做一个镜像备份产生一个检索系统

　　1.选取一部分的url作为*敏*感*词*url，将这种url装入到带爬取的任务队列上面

　　2.从待爬取的任务列队中取出url，发起恳求，将获取的网页源码储存到本地

　　并将早已爬取过的url ，放到已爬取的队列中

　　3.从已爬取的URL的响应结果中剖析提取其他的url的地址，继续添加到待爬取的队列中，

　　之后就是不断的循环，直到所有的url都获取完毕。

　　1.通过网站提交自己的网站地址（）

　　2.搜索引擎会和DNS服务商合作，拿到最新的网站地址

　　3.网站中包含其他外链

　　DNS服务：将我们的域名转换为对应的ip的一种技术

　　数据获取------>预处理（去噪，分词，去广告.....）------>存储------>提供检索插口|排名（网络排行）

　　网站排名：

　　1.根据用户的访问量（越多越靠前）

　　2.竞价排名

　　1.必须遵循robot合同：就是一个规范，告诉搜索引擎爬虫，哪些目录下的资源容许爬虫，哪些目录下的资源不容许爬虫

　　"user-agent":这项值拿来表示是哪家的搜索引擎

　　"allow":允许被爬取的url

　　"disallow":不容许被爬取的url

　　2.搜索引擎返回的都是网页，并且返回的90%都是无用的信息

　　3.不能否按照不同用户的需求返回不同的结果

　　4.通用爬虫对于多媒体的文件不能够获取

　　聚焦爬虫是面向主题的爬虫，在爬虫数据的过程中会对数据进行筛选，往往只会爬虫与需求相关的数据

0

2020-06-17

python爬虫 url

0 个评论

要回复文章请先登录或注册