网页抓取工具怎样进行http模拟恳求
优采云 发布时间: 2020-08-13 00:35在使用网页抓取工具采集网页时,进行http模拟恳求可以通过浏览器手动获取登陆cookie、返回头信息,查看源码等。具体怎么操作呢?这里分享给你们网页抓取工具优采云采集器V9中的http模拟恳求。许多恳求工具都是仿造优采云采集器中的恳求工具所写,因此你们可以此为例学习一下。
http模拟恳求可以设置怎么发起一个http请求,包括设置恳求信息,返回头信息等。并具有手动递交的功能。工具主要收录两大部份:一个MDI父窗体和恳求配置窗体。
1.2恳求信息:常规设置和更中级设置两部份。1.1恳求地址:正确填写恳求的链接。
(1)常规设置:
①来源页:正确填写请求页来源页地址。
②发送方法:get和post,当选择post时,请在发送数据文本框正确填写发布数据。
③客户端:选择或粘贴浏览器类型至此处。
④cookie值:读取本地登陆信息和自定义两种选择。
高级设置:收录如图所示系列设置,当不需要以上中级设置时,点击关掉按键即可。
②网页编码:自动辨识和自定义两种选择,若选中自定义,自定义前面会出现编码选择框,在选择框选择恳求的编码。
①网页压缩:选择压缩方法,可全选,对应恳求头信息的Accept-Encoding。
③Keep-Alive:决定当前恳求是否与internet资源构建持久性链接。
④自动跳转:决定当前恳求是否应追随重定向响应。
⑤基于Windows身分验证类型的表单:正确填写用户名,密码,域即可,无身分认证时毋须填写。
⑥更多发送头信息:显示发送的头信息,以列表方式显示更清晰直观的了解到恳求的头信息。此处的头信息供用户选填的,若要将某一名称的头信息进行恳求,勾选Header名对应的复选框即可,Header名和Header值都是可以进行编辑的。
1.3返回头信息:将详尽列举恳求成功以后返回的头信息,如下图。
1.5预览:可在此预览恳求成功以后返回的页面。1.4源码:待恳求完毕后,工具会手动跳转到源码选项,在此可查看恳求成功以后所返回的页面源码信息。
1.6手动操作选项:可设置手动刷新/提交的时间间隔和运行次数,启用此操作后,工具会手动的按一定的时间间隔和运行次数向服务器手动恳求,若想取消此操作,点击前面的停止按纽即可。
配置好上述信息后,点击“开始查看”按钮即可查看恳求信息,返回头信息等,为防止填写恳求信息,可以点击“粘贴外部监视HTTP恳求数据”按钮粘贴恳求的头信息,然后点击开始查看按键即可。这种捷径是在粘贴的头信息格式正确的前提下,否则会弹出错误提示框。
更多有关网页抓取工具或网页采集的教程都可以从优采云采集器的系列教程中学习借鉴。