java爬虫抓取网页数据(初识爬虫的几种分类及注意事项！（一）)

优采云发布时间: 2022-01-22 22:10

　　第一次认识爬行动物

　　一、爬虫介绍

　　模拟浏览器，发送请求，获取响应

　　网络爬虫，英文名Spider，又称网络蜘蛛、网络机器人，在数据分析应用中，更多的爬虫称为数据采集程序，是一种按照一定规则自动爬取网络信息的程序或脚本.

　　l 原则上只要是客户端（浏览器）能做的，爬虫都能做

　　l 爬虫只能获取客户端（浏览器）显示的数据

　　网络中的数据可以通过Web服务器【Nginx/Apache】、数据库服务【MySQL/Redis/MongoDB】、索引库、大数据、视频/图片库、云存储【阿里巴巴云OSS】等提供。重要的是源是Web服务器

　　不过大家一定要注意，可以爬取的数据必须是公开的，非盈利的，比如：如果你入侵别人的非公网，他们会通过ip定位你，这是违法的。或者，一些财务管理网站，如果爬取数据，肯定是不允许的。如果你的朋友不听话硬要爬，那没人能保护你，狗头救你一命~~~

　　爬虫类著名案例：“乔达科技”被一锅抓，“马车来了”涉嫌盗窃数据被*敏*感*词*立案等。

　　二、爬虫分类

　　万能爬虫：

　　一般的网络爬虫从互联网上采集网页，采集信息，这些网页信息决定了整个引擎系统的内容是否丰富，信息是否及时，所以它的性能直接影响搜索的效果引擎

　　每个人都应该注意。一般的爬虫虽然简单方便，但缺点也很明显。小助手为大家罗列了几点，大家可以理解：

　　l 一般搜索引擎返回的结果都是网页，大多数情况下，网页中90%的内容对用户来说是无用的。

　　l 不同领域、不同背景的用户往往有不同的检索目的和需求，搜索引擎无法为特定用户提供搜索结果。

　　l 随着万维网上数据形式的丰富和网络技术的不断发展，出现了大量的图片、数据库、音频、视频、多媒体等不同的数据，一般的搜索引擎对这些文件是无能为力的，它们不能很好地被发现和获得。

　　l 通用搜索引擎大多提供基于关键词的检索，难以支持基于语义信息的查询，无法准确理解用户的具体需求。

　　专注于爬虫：

　　聚焦爬虫是一种“面向特定主题需求”的网络爬虫程序。它与一般搜索引擎爬虫的不同之处在于：专注爬虫在实现网页爬取时会对内容进行处理和过滤，并尽量保证只爬取与需求相关的内容。网页信息，如12306抢票，或抢某（某类）网站data

　　根据目的是否为获取数据，可分为：

　　l 功能爬虫，投票点赞你喜欢的明星

　　l 数据增量爬虫，如招聘信息

　　2. 根据url地址和对应的页面内容是否发生变化，增量数据爬虫可以分为：

　　l 基于url地址变化和内容变化的数据增量爬虫

　　lurl地址不变，内容变化的数据增量爬虫

　　看到这里，有没有发现通用爬虫简单，但不实用，专注爬虫应用广泛，实用，但实现起来比较困难，不过没关系，借助小助手，我们都可以学习吧，哦福利！！！

　　三、爬虫的作用

　　爬虫在互联网世界有很*敏*感*词*，比如：

　　1. 数据采集，例如：

0

2022-01-22

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册