抓取jsp网页源代码(网络爬虫的*敏*感*词*法和使用方法,你值得拥有!)

优采云 发布时间: 2022-02-07 22:21

  抓取jsp网页源代码(网络爬虫的*敏*感*词*法和使用方法,你值得拥有!)

  一、什么是爬虫

  大东:小白,你平时都是自己做作业吗?

  小白:大大大大的,怎么了?

  大东:看你,吓得结巴。

  小白:我这么好的学生,怎么会抄作业这种事!

  大东:好的,我知道你不抄作业,所以有同学抄作业?

  小白:哇!尤其是作业检查的前一天,我的同学们快速跑了一遍,一起抄了一遍,非常壮观。

  大东:在网络世界里,也有人喜欢抄“作业”。

  小白:诶!是谁!

  大东:叫做网络爬虫。

  小白:这个名字我早就羡慕了!

  大东:网络爬虫也可以称为网络蜘蛛、网络机器人,还有一个文学名称——网页追赶者。网络爬虫是根据预定规则自动从万维网上爬取所需信息的程序或脚本。

  小白:如果我学得好,我可以自动为我抓取作业答案。不,课外资料,听起来很不错~

  

  网络爬虫(图片来自网络)

  二、爬虫能做什么

  小白:这个网络爬虫能抓到什么吗?

  大东:只要在写的时候定义好,就可以根据自己的要求去抓取。从这个角度来看,它就是你想要抓住的东西。常见,可用于网页文字、图片、视频。

  小白:哇~

  大东:根据网络爬虫的爬取对象、程序结构和使用技术,通常可以分为以下四类:通用爬虫、聚焦爬虫、增量爬虫和深度爬虫。

  小白:要注意的东西太多了!

  大东:通用爬虫已经变成了全网爬虫,主要用在搜索引擎上。通用爬虫从初始URL开始,可以获取整个网页。工作量巨大,要求存储容量大、处理速度快、工作性能强大。

  小白:你要不要,先拿下来!

  大东:专注爬虫专注于抓取特定网页和特定信息,只搜索和抓取预先定义好的关键信息。焦点类型通常用于数据分析工作的数据采集阶段,具有很强的焦点。

  小白:不求数量,只求准确!

  大东:增量爬虫在固定的时间段内自动重新抓取网页,可以获取网页的更新内容并存入数据库。

  小白:有点自动化的意思!

  大东:深度爬虫可以快速抓取并保存网页上的文字、图片等信息,无需人工操作,通常用于需要提交登录数据才能进入的页面。深度爬虫可以自动处理图像存储的复杂操作,同时获取大量感知知识难以获取的数据,为后续决策提供支持。

  小白:哇,这个最厉害了!节省大量人力

  

  蜘蛛侠(图片来自网络)

  三、简单爬虫的养成

  小白:爬虫好用,我也想写一个试试看,请告诉我怎么做~

  大东:爬虫一般有两种工作方式:一种是模拟真实用户,在页面上操作;另一种是向网站发起HTTP请求,直接获取整个页面的内容。

  小白:哦~第一个我知道。您可以使用软件测试工具来模拟用户的浏览和点击操作。比如在python语言中,Selenium就是一个可以用来模拟用户操作的包,加上lxml包。定位网页的相框简直完美~

  大东:没想到小白也有经验。

  小白:嘻嘻嘻,你不像人啊~

  大东:另外一种方式,同样以python语言为例,就是程序先使用HTTP库向目标网站发起请求,等待服务器响应。如果服务器能正常响应,程序就可以收到一个Response。这个Response中的内容就是要获取的页面的内容。它可能有 HTML、Json 字符串、二进制和其他类型的数据。程序需要不断地对内容进行解析和提取,最终得到需要的信息。

  小白:也好听~

  大东:一般来说,第二种方法比第一种更有效。

  小白:好!今晚可以回去写爬虫了~

  大东:爬虫程序一般分为几个模块,分别负责不同的功能。简单来说,爬虫调度端就是用来控制和监控爬虫的运行;URL管理器管理要爬取的目标网站URL和已经爬取过的URL;网页下载器从 URL 管理从浏览器中的 URL 下载网页并生成字符串;网页解析器需要解析网页下载器完成的内容。一方面解析出有用的价值数据,另一方面取出网页中的链接发送给URL管理器。.

  小白:哇,小爬虫分工有条不紊~

  

  爬虫程序的基本流程(图片来自网络)

  四、防爬技术

  小白:大冬冬,我有一个问题。总有一些同学不愿意轻易分享他的劳动成果,所以就不要让别人看到他的功课。但是在这个网络上,网站 是公开的,任何人都可以看到它。如果我不想让别人复制它怎么办?

  大东:有爬虫技术,当然还有反爬虫技术。

  小白:听前排讲课~

  大东:据我所知,目前的防爬技术大致分为四种。最经典的反爬策略是“验证码”。

  小白:我知道~是永远不会失败的反人类验证码吗!

  大东:是的,因为验证码是图片,所以用户只需要输入一次就可以登录成功。程序在抓取数据的过程中,需要不断的登录,抓取1000个用户的个人信息,需要填写1000个验证码,可以减缓甚至停止程序的爬取过程。

  小白:哇,好麻烦。

  大东:另一个更狠的反爬策略是封IP和封号。网站一旦某个IP或网站账号被怀疑为爬虫,该账号和IP将立即被封杀,将无法再通过该IP访问网站或占短时间甚至永久。

  小白:太残忍了!

  大东:比较常见的是通过cookies来限制信息的抓取。比如程序模拟登录后,如果想获取登录后某个页面的信息,需要请求一些中间页面获取特定的cookie,然后就可以抓取我们需要的页面了。

  小白:操作比较复杂。

  大东:另一种常见的反爬模式是使用JS渲染页面。这是什么意思?返回的页面不是直接请求的,而是JS操作数据文件得到的一部分,而那部分数据我们也拿不到。

  小白:看来大家都在尽力防止自己的“作业”被抄袭了!

  大东:所以小白,从现在开始,不管是你还是你的同学,好好做好功课。想要通过抄袭取得好成绩,迟早会有“报应”!

  小白:那一定要做好~

  

  对峙(图片来自网络)

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线