采集网站内容常用的采集方法介绍两种我们的常用方法
优采云 发布时间: 2022-05-08 08:00采集网站内容常用的采集方法介绍两种我们的常用方法
采集网站内容也有很多办法,接下来给大家介绍两种我们常用的采集方法,希望大家能从中汲取营养。第一种技术手段就是网站蜘蛛技术了,我们先打开浏览器随便打开一个网站,接着打开https加密的控制面板,在浏览器的浏览页面的右边出现了一个免登陆接收页面请求的选项卡,这里面的的页面地址对应我们浏览器的ie会显示为2209839,接着我们点击进入并打开那个页面,然后点击network标签,然后在页面右边会出现一个请求头信息,我们打开请求头信息,点击进入后我们可以看到右边显示了有个trycatcherrequest头信息,点击右边网络请求信息里面有个post请求的控制区域,我们找到这个子域名,然后点击它,接着我们点击post请求子域名旁边的添加按钮,在弹出的对话框中我们输入network标签,在左边有个post请求的选项,点击确定后network内容就被打开了,接着我们点击浏览器右上角的network标签就会在页面中跳转到我们想要的网站资源,然后点击右边复制,接着我们点击刚才我们生成的一个数据的地址,我们会在下拉框中找到打开的地址,然后点击鼠标右键选择拖拽,接着选择浏览器的审查元素,然后点击地址栏,会弹出弹窗,接着点击network标签,在下拉框中找到这个script标签,然后我们用鼠标把它拖进去,接着鼠标左键选择复制,接着我们点击浏览器右上角的network标签会跳转到另一个页面,当我们退出并重新进入后就发现请求内容都在列表中了,并且可以复制了。
第二种技术手段就是爬虫工具了,爬虫工具其实有很多种,也是让人提高工作效率的工具。首先我们有两种常用的,一种是抓包工具,如果我们不会用电脑直接用其他方法也是可以的,可以看教程。另一种就是抓取工具,如果电脑装了浏览器自带浏览器,然后在浏览器的扩展中心中,我们可以看到浏览器自带的浏览器扩展,通过浏览器扩展中心里面安装对应的浏览器扩展程序,就可以直接将页面内容爬取下来了。
以下是我一次爬取五个不同网站的效果。这两种采集技术还有很多,我就不一一举例了,大家可以根据自己的需要进行选择。大家如果想学习更多这方面的技术,可以到我公众号添加好友索取课程获取学习方法,零基础5天精通python网络爬虫学习。