js 爬虫抓取网页数据(爬虫基本原理爬虫的基本流程-爬虫的流程 )

优采云 发布时间: 2021-11-07 00:13

  js 爬虫抓取网页数据(爬虫基本原理爬虫的基本流程-爬虫的流程

)

  爬虫的基本原理

  爬行的基本过程

  1、获取网页源码:通过request库、urllib、requests等实现HTTP请求;

  2、 提取信息:分析网页源代码,提取数据,如正则表达式、美汤、pyquery、Ixml等;

  3、保存数据:保存到txt、json或数据库;

  要捕获哪些数据

  Javascript 渲染页面

  使用 urllib 或 requests 获取网页时,获取的源代码与您在浏览器中看到的不同。

  越来越多的网页使用ajax和前端模块化工具构建,整个网页都由Javascript渲染。需要分析ajax接口,或者使用selenium等库来模拟Javascript渲染。

  【页面渲染】

  页面渲染是浏览器的渲染引擎根据CSS定义的规则在浏览器窗口中显示HTML代码的过程。

  一般工作原理如下:

  饼干

  Cookie 位于浏览器端。访问动态网页时,浏览器会自动附加并发送到服务器。服务器识别cookie并识别它是哪个用户,确定它是否登录,然后返回相应的响应。

  爬虫代理

  代理网络用户获取网络信息;

  代理的作用:突破自身IP访问限制,访问群内资源,提高访问速度,隐藏真实IP;

  爬虫代理可以获得更好的爬虫效果(防止被屏蔽或输入验证码登录);

  

  检查robots.txt

  Robots协议(也叫爬虫协议、机器人协议等)的全称是“机器人排除协议”(Robots Exclusion Protocol),网站告诉搜索引擎哪些页面可以爬取,哪些页面不能爬取机器人协议选择。

  搜索蜘蛛访问站点时,首先会检查站点根目录下是否存在robots.txt。如果存在,搜索机器人会根据文件内容确定访问范围;如果该文件不存在,所有 'S 搜索蜘蛛将能够访问 网站 上没有密码保护的所有页面。

  

  

  爬行动物的攻击与防御

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线