js 爬虫抓取网页数据(爬虫基本原理爬虫的基本流程-爬虫的流程 )

优采云发布时间: 2021-11-07 00:13

　　js 爬虫抓取网页数据(爬虫基本原理爬虫的基本流程-爬虫的流程

)

　　爬虫的基本原理

　　爬行的基本过程

　　1、获取网页源码：通过request库、urllib、requests等实现HTTP请求；

　　2、提取信息：分析网页源代码，提取数据，如正则表达式、美汤、pyquery、Ixml等；

　　3、保存数据：保存到txt、json或数据库；

　　要捕获哪些数据

　　Javascript 渲染页面

　　使用 urllib 或 requests 获取网页时，获取的源代码与您在浏览器中看到的不同。

　　越来越多的网页使用ajax和前端模块化工具构建，整个网页都由Javascript渲染。需要分析ajax接口，或者使用selenium等库来模拟Javascript渲染。

　　【页面渲染】

　　页面渲染是浏览器的渲染引擎根据CSS定义的规则在浏览器窗口中显示HTML代码的过程。

　　一般工作原理如下：

　　饼干

　　Cookie 位于浏览器端。访问动态网页时，浏览器会自动附加并发送到服务器。服务器识别cookie并识别它是哪个用户，确定它是否登录，然后返回相应的响应。

　　爬虫代理

　　代理网络用户获取网络信息；

　　代理的作用：突破自身IP访问限制，访问群内资源，提高访问速度，隐藏真实IP；

　　爬虫代理可以获得更好的爬虫效果（防止被屏蔽或输入验证码登录）；

　　检查robots.txt

　　Robots协议（也叫爬虫协议、机器人协议等）的全称是“机器人排除协议”（Robots Exclusion Protocol），网站告诉搜索引擎哪些页面可以爬取，哪些页面不能爬取机器人协议选择。

　　搜索蜘蛛访问站点时，首先会检查站点根目录下是否存在robots.txt。如果存在，搜索机器人会根据文件内容确定访问范围；如果该文件不存在，所有 'S 搜索蜘蛛将能够访问网站上没有密码保护的所有页面。

　　爬行动物的攻击与防御

0

2021-11-07

js 爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册