java爬虫抓取网页数据(初识爬虫的几种分类及注意事项!(一))

优采云 发布时间: 2022-01-22 22:10

  java爬虫抓取网页数据(初识爬虫的几种分类及注意事项!(一))

  第一次认识爬行动物

  一、爬虫介绍

  模拟浏览器,发送请求,获取响应

  网络爬虫,英文名Spider,又称网络蜘蛛、网络机器人,在数据分析应用中,更多的爬虫称为数据采集程序,是一种按照一定规则自动爬取网络信息的程序或脚本.

  l 原则上只要是客户端(浏览器)能做的,爬虫都能做

  l 爬虫只能获取客户端(浏览器)显示的数据

  网络中的数据可以通过Web服务器【Nginx/Apache】、数据库服务【MySQL/Redis/MongoDB】、索引库、大数据、视频/图片库、云存储【阿里巴巴云OSS】等提供。重要的是源是Web服务器

  不过大家一定要注意,可以爬取的数据必须是公开的,非盈利的,比如:如果你入侵别人的非公网,他们会通过ip定位你,这是违法的。或者,一些财务管理网站,如果爬取数据,肯定是不允许的。如果你的朋友不听话硬要爬,那没人能保护你,狗头救你一命~~~

  爬虫类著名案例:“乔达科技”被一锅抓,“马车来了”涉嫌盗窃数据被*敏*感*词*立案等。

  

  二、爬虫分类

  万能爬虫:

  一般的网络爬虫从互联网上采集网页,采集信息,这些网页信息决定了整个引擎系统的内容是否丰富,信息是否及时,所以它的性能直接影响搜索的效果引擎

  每个人都应该注意。一般的爬虫虽然简单方便,但缺点也很明显。小助手为大家罗列了几点,大家可以理解:

  l 一般搜索引擎返回的结果都是网页,大多数情况下,网页中90%的内容对用户来说是无用的。

  l 不同领域、不同背景的用户往往有不同的检索目的和需求,搜索引擎无法为特定用户提供搜索结果。

  l 随着万维网上数据形式的丰富和网络技术的不断发展,出现了大量的图片、数据库、音频、视频、多媒体等不同的数据,一般的搜索引擎对这些文件是无能为力的,它们不能很好地被发现和获得。

  l 通用搜索引擎大多提供基于关键词的检索,难以支持基于语义信息的查询,无法准确理解用户的具体需求。

  专注于爬虫:

  聚焦爬虫是一种“面向特定主题需求”的网络爬虫程序。它与一般搜索引擎爬虫的不同之处在于:专注爬虫在实现网页爬取时会对内容进行处理和过滤,并尽量保证只爬取与需求相关的内容。网页信息,如12306抢票,或抢某(某类)网站data

  根据目的是否为获取数据,可分为:

  l 功能爬虫,投票点赞你喜欢的明星

  l 数据增量爬虫,如招聘信息

  2. 根据url地址和对应的页面内容是否发生变化,增量数据爬虫可以分为:

  l 基于url地址变化和内容变化的数据增量爬虫

  lurl地址不变,内容变化的数据增量爬虫

  看到这里,有没有发现通用爬虫简单,但不实用,专注爬虫应用广泛,实用,但实现起来比较困难,不过没关系,借助小助手,我们都可以学习吧,哦福利!!!

  三、爬虫的作用

  爬虫在互联网世界有很*敏*感*词*,比如:

  1. 数据采集,例如:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线