java爬虫抓取网页数据(一下NetDiscovery爬虫爬虫框架里的downloader对象对象1))

优采云发布时间: 2022-02-01 08:12

　　大家好，本文文章介绍NetDiscovery爬虫框架中的downloader对象

　　1) 前言

　　面向对象设计仍然是当前编程的核心思想。从下面的截图可以了解爬虫框架的主要对象：

　　程序在本地组织好一个请求后，交给下载器从网络抓取数据到本地，然后解析器对本地数据进行处理，最终生成可用信息。

　　2) 下载器介绍

　　下载器也称为下载器。它的主要功能是访问网络并成功获取我们想要的数据：如html网页、json/xml数据、二进制流（图片、办公文档等）

　　NetDiscovery 目前支持的下载器实现有：

　　面向接口的编程是该框架的重要设计思想之一。

　　下面介绍一些下载器代码。这些代码的共同点是实现Downloader接口。

　　作为程序开发人员，您还可以实现接口 discovery.core.downloader.Downloader 来创建自己的下载器类。

　　//1、构建一个URL对象

url = new URL(request.getUrl());

//2、获取一个HttpURLConnection对象

conn = url.openConnection();

//3、一堆设置

conn .setDoOutput(true);

conn .setDoInput(true);

conn .setRequestMethod("POST");

......

//4、访问网络服务

conn.connect();

//5、执行成功的话，获取结果

conn.getResponseCode();

conn.getInputStream();

　　//1、获取一个HttpManager对象(框架自己封装的)

HttpManager httpManager = HttpManager.get();

//2、然后把request扔进去，等结果就可以了.request也是框架封装的

httpManager.getResponse(request)

//3、等来结果后，进行处理

@Override

public Response apply(CloseableHttpResponse closeableHttpResponse) throws Exception {

String charset = null;

if (Preconditions.isNotBlank(request.getCharset())) {

charset = request.getCharset(); //针对一些还是GB2312编码的网页

} else {

charset = "UTF-8";

}

String html = EntityUtils.toString(closeableHttpResponse.getEntity(), charset);

Response response = new Response();

response.setContent(html.getBytes());

response.setStatusCode(closeableHttpResponse.getStatusLine().getStatusCode());

if (closeableHttpResponse.containsHeader("Content-Type")) {

response.setContentType(closeableHttpResponse.getFirstHeader("Content-Type").getValue());

}

return response;

}

　　3) 总结

　　总之，爬虫程序本质上是一个网络程序，而网络程序的核心模块离不开对网络数据的处理。建议学习爬虫的小伙伴，如果想看源码，可以从框架中的下载器相关代码入手。我相信会有收获。

0

2022-02-01

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(一下NetDiscovery爬虫爬虫框架里的downloader对象对象1))

0 个评论

发起人

AI时代内容工厂

java爬虫抓取网页数据(一下NetDiscovery爬虫爬虫框架里的downloader对象对象1))

0 个评论

发起人

相关问题