java爬虫抓取网页数据( 每一个步骤我都是进行独立封装起来,方便复用 )
优采云 发布时间: 2021-12-21 10:19java爬虫抓取网页数据(
每一个步骤我都是进行独立封装起来,方便复用
)
Java爬虫基于Jsoup抓取网页数据
前言
本文主要介绍简单使用Jsoup抓取网页数据
框架 SpringBoot + Jsoup
我独立封装了每一步,方便复用(重要的说三遍)
我独立封装了每一步,方便复用(重要的说三遍)
我独立封装了每一步,方便复用(重要的说三遍)
这是广告:技术交流群796794009 SpringBoot技术交流群; --小武
一.准备
创建一个SpringBoot项目,引入Jsoup依赖
org.jsoup
jsoup
1.13.1
二.代码(使用Jsoup的核心是两步)
第一步
通过Jsoup的connect(url).get()获取当前页面信息;方法
url 是你要获取的网页地址
返回的是一个文档
public Document getDoc(String url){
Document doc;
try {
doc = Jsoup.connect(url).get();
} catch (IOException e) {
log.error("出现异常:{}", e.getMessage());
return null;
}
return doc;
}
第二步
通过Document中的select方法获取标签(Elements)信息
特别说明1:使用select方法获取Element的集合,需要遍历获取Element
特别说明2:link.attr("abs:src")中的abs:指的是绝对路径,现在很多页面的src都没有域名
private Map listUrl(Document doc){
// Map
Map map = new HashMap(16);
// 获取图片标签
Elements links = doc.select("img[src]");
for (Element link : links){
System.out.println("名称 : " + link.text());
System.out.println("链接 : " + link.attr("abs:src"));
map.put(link.absUrl("abs:src"), link.text());
}
return map;
}
三.效果
这是我博客中的一段图片数据文章
爬虫项目地址
个人爬虫项目,仅供学习参考:
使用环境jdk1.8、MySQL8.0
注意:本项目仅提供4个接口
特别说明:第四个接口不建议大家尝试大网站,大网站接口获取时间太长
禁止利用本项目做一切*敏*感*词*,仅供学习参考
如图所示: